바이오스펙테이터 노신영 기자
아이젠사이언스(AIGEN Sciences)가 17일 의학 및 생물학 분야 AI(인공지능) 국제 경진대회 ‘BioCreative VII’에 참가해 2개 트랙에서 각각 1등, 3등의 우수한 성적을 거뒀다고 밝혔다. 올해로 7회를 맞는 BioCreative 대회 결과는 지난 8일~10일 온라인으로 개최된 BioCreative VII 워크숍을 통해 공개됐다.
아이젠사이언스는 강재우 고려대 컴퓨터학과 교수가 지난 4월에 설립한 AI 기반 신약개발 회사다. ‘BioCreative’ 국제대회는 의생명 텍스트처리 인공지능 경진대회로 올해는 총 5개의 트랙을 공개했으며 아이젠사이언스는 트랙1 및 트랙2 문제에 각각 참여했다.
트랙1은 관계추출 문제로, 의생물학 논문 내에서 약물과 체내 단백질 간의 상호작용을 찾아 추출하는 문제다. 이러한 관계추출 모델은 추후 신약개발 과정 중 특정약물이 체내에서 어떤 원리로 작용하는지를 밝혀내거나, 해당 신약의 화합물을 발굴하는데 활용할 수 있다고 회사측은 설명했다.
강 대표는 트랙1에서 리차드 잭슨(Richard Jackson) 아스트라제네카(AstraZeneca) 수석 AI 엔지니어와 고려대 컴퓨터학과 연구팀과 팀을 이루어 참가했다. 연구팀은 인공지능으로 학습데이터를 만들어 기존 학습 데이터를 보강하는 방법론(weakly labeled data augmentation)을 사용함으로써, 글로벌 대학팀과 기업 및 국책연구기관 등을 제치고 3위의 성적을 거뒀다.
트랙1이 문서 내에서 이미 주어진 약물과 단백질 개체 간의 상호작용을 추론했다면 트랙2는 문서에서 이러한 약물을 포함한 화합물 개체를 찾는 것이 목적이다. 참가자들은 의생명 문헌을 토대로 약물 혹은 화합물에 해당하는 개체명들을 사람의 개입없이 인공지능을 이용해 자동으로 추출해야 한다.
강 대표와 고려대 컴퓨터학과 연구팀은 인공신경망 기반 인공지능 시스템의 고질적인 문제인 새로운 데이터에서의 일반화능력 부족에 집중했다. 인공신경망 모델은 학습한 개체명은 잘 기억하고 예측하는 반면, 학습하지 못한 새로운 개체명에 대해서는 예측능력이 매우 떨어진다. 이를 해결하기 위해, 연구팀은 지식 베이스를 이용한 데이터 자동생성 기법과 전이학습(Transfer learning)을 통해 모델을 학습시켰으며, 해당 트랙의 NER(Named Entity Recognition) 부문에서 1위를 기록했다.
한편 강 대표는 지난 2019년부터 올해까지 고려대 연구팀을 이끌며 구글(Google)이 후원하는 AI 의생명 질의응답 대회 ‘BioASQ’에 참여해 3년 연속으로 우수한 성적을 거뒀다. 또한 IBM이 주최하는 정밀의료 신약개발 국제대회 ‘드림챌린지(Dream Challenge)’에서도 지난 2017년부터 2019년까지 3년 연속 1위를 차지한 바 있다.