바이오스펙테이터 신창민 기자
아이젠사이언스(AIGEN Sciences)는 29일 국가 차원의 사업인 ‘연합학습 기반 신약개발 가속화 프로젝트’의 인공지능(AI) 솔루션 개발 주관연구기관으로 선정됐다고 밝혔다.
이번 프로젝트는 보건복지부와 과학기술정보통신부가 공동으로 추진하는 국책사업으로, 향후 5년간 총 348억원의 예산이 투입될 예정이다. 해당 프로젝트는 연합학습 플랫폼 구축 및 개발, 신약개발 데이터 활용 및 품질관리, 연합학습 플랫폼 활용 AI 솔루션 개발 등 총 3개의 과제로 구성돼 있다.
아이젠사이언스는 이번 프로젝트에서 신약개발 과정의 실험 데이터를 활용한 고도화된 AI 모델 개발을 담당한다. 이 AI 모델은 약물의 흡수, 분포, 대사, 배설, 독성 등 5가지 특성(ADMET)을 예측해 효과적인 약물 후보물질을 신속하게 발굴하는데 기여하는 것으로 목표로 한다. 아이젠사이언스 외 광주과학기술원, 목암생명과학연구소, 전북대산학협력단, 한국과학기술원 등 총 5개 기관이 이 연구를 주관한다.
신약개발 분야에서 AI기술 적용의 가장 큰 난관은 양질의 데이터가 부족하다는 점이다. 이를 해결하기 위해 이번 프로젝트는 연합학습(federated learning) 기술을 활용한 ADMET 예측 모델 개발에 초점을 맞추고 있다는 게 회사측의 설명이다.
연합학습은 각 참여기관의 민감한 데이터를 외부와 공유하지 않으면서도 다양한 기관의 풍부한 데이터를 AI 학습에 활용할 수 있게 하는 기술이다. 이 기술의 핵심 원리는 데이터를 중앙 서버에 모으지 않고, AI 모델이 각 참여기관의 로컬 환경에서 학습을 수행하는 것이다. 학습과정에서 각 기관에서 훈련된 모델은 중앙 서버로 전송돼 통합되고, 이후 다시 각 기관에 배포되는 방식으로 모델이 개선된다. 이를 통해 정보유출의 위험을 최소화하면서도 다양한 데이터로부터 학습이 가능해진다.
아이젠사이언스는 여기서 한 걸음 더 나아가 최신 LLM(large language model) 기술을 이용해 방대한 과학문헌 데이터에서 ADMET 관련 정보를 자동으로 추출하는 방법을 통해 학습에 활용할 수 있는 데이터를 추가로 확보하는 방법을 제안했다. 또한 LLM 기술을 이용해 예측 결과를 단순히 수치로 제시하는 것을 넘어 그 결과의 해석과 근거를 설명하도록 개발할 계획이다. 예를 들어, ‘이 화합물은 CYP3A4 억제제일 가능성이 높으며, A 작용기와 연관이 있다’와 같은 설명을 제공할 수 있어 신약개발 연구자들의 의사결정에 유용한 정보를 제공할 수 있다.
김선규 아이젠사이언스 AI연구실장은 “약물 표현형모델과 LLM 기술을 연합학습에 접목시켜 양질의 데이터 부족 문제를 효과적으로 해결할 수 있다”며 “이를 통해 ADMET 예측의 정확도를 크게 높임으로써 신약개발 임상 성공률 향상에 기여할 수 있을 것”이라고 말했다.