김태형 테라젠이텍스 이사
딥지노믹스(DeepGenomics) CEO이자 캐나다 토론토 대학 교수인 '브렌던 프레이(Brendan Frey)' 그룹에서 최근 네이처 바이오테크놀로지에 바이오의약(biomedicine) 분야에서 딥러닝 기술이 적용되고 있는 사례와 미래 적용될 헬스케어 분야를 소개하는 '바이오의약 분야 딥러닝(Deep learning in biomedicine)' 리뷰 논문을 냈다. 이번에는 이 논문을 요약해 보았다.
1950년 초, DNA의 분자구조가 밝혀졌다. DNA는 유전정보를 담고 있는 물리적 저장 매체라는 것이 밝혀졌다. 그로부터 50년이 지난 2001년에 인간 게놈 프로젝트(Human Genome Project)를 통해 인간 유전체 지도가 완성되었다. 하지만 인간의 생명체 지도가 완성되었음에도 불구하고 우리가 해독한 인간 유전체 지도는 말 그대로 게놈 서열 정보일 뿐 해석하기는 쉽지 않은 방대한 문자열로 이뤄졌다는 것이다.
게다가 사람의 유전체는 약 2만여개의 단백질을 코딩하는 유전자로 구성되어 있으며 그 외에도 2만 5000개가 넘는 비단백질 코딩 유전자가 존재하고 있다. 이들은 다양한 조합을 통해 여러 전사체를 생성하며 유전자 발현에 관여하고 있으며 이를 통해서 세포 내 복잡한 생물학적 기능들을 담당하고 있다. 그래서 이들을 모두 이해하려면 세포가 자신의 유전체를 처리하는 것처럼 해석할 수 있는 분석능력을 갖춰야 하는데 이에 접근하는 데 있어서 인간의 인지능력 이상의 분석 능력이 요구되며 이를 가능하게 하는 시스템이 필요로 한데 딥러닝 기술이 하나의 대안으로 떠오르고 있다.
특히 차세대 유전체 해독(Next Generation Sequencing, NGS) 기술의 발전과 함께 사람마다 약 100 기가 염기(gigabase)에 해당하는 수천~수십만 건의 유전체 빅데이터를 활용할 수 있게 되면서 이러한 데이터셋을 기반으로 머신러닝/딥러닝 기술을 적용하면 실험실에서 모델 생물을 대상으로 유전적 변이의 기능을 해석하는 것보다도 더 효율적일 것으로 보고 있다. 더 나아가 질병의 원인이 되는 변이를 발견하고 타겟 치료제를 스크리닝 하는 시도도 진행중에 있다.
최근 CRISPR-Cas9과 같은 유전자 편집 기술이 등장하면서 유전체 정보를 자유자재로 읽고(decoding), 쓸(encoding) 수 있게 됨으로써 이를 기반으로 세포 내 현상 및 유전체 특정 영역의 기능을 해석하고 특정 질병과의 연관성을 분석하기 위한 다양한 데이터셋을 대량으로 얻을 수 있게 되었으며 기계학습/딥러닝을 통해 이를 분석하는 시도가 이루어지고 있다.
그림출처: Deep learning in biomedicine, Nat Biotechnol. 2018 Oct;36(9):829-838.
1960년부터 인공지능과 생명공학 기술은 각자 계속 빠르게 발전하다가 최근에서야 이 두 기술이 만나 시너지를 올리는 시대를 맞이 하게 되었다. 2012년에 있었던 '머크 분자 물성 예측 대회(Merck Molecular Activity challenge)'에서 실제로 분자들의 구조-물성 관계(Quantitative Structure Activity Relationship; QSAR)에 대해 딥러닝 모델의 하나인 DNN(Deep Neural Network)을 적용해 우승하면서부터 신약개발(drug discovery)에 있어 딥러닝 모델이 유효하다는 것이 처음 입증되기도 하였다.
최근에는 여러 딥러닝 모델을 통해 특정 유전적 변이로 인해 세포 내 단백질의 활성을 어떻게 변화시키는지 그리고 영상의학 이미지를 분석해 질병 유무 및 환자를 분류하는데 활용되기 시작했다.
예를 들면 2014년에는 딥러닝 기술을 이용해 조직별로 다양한 엑손-인트론 스플라이싱 패턴을 예측하는 SPIDEX, 2015년에는 단백질이 결합하는 유전체 사이트를 예측하는 DeepBind와 알츠하이머 환자 임상시험 참여를 돕는 툴 등이 딥러닝으로 구현이 되었다. 2016년에는 현미경의 기능을 개선하는 분야를 비롯해 당뇨병성 망막증(diabetic retinopathy)을 스크리닝 하기 위해 그리고 초소형 염기서열 해독기인 나노포어에서 생산된 유전체 서열의 정확한 콜링을 위해 적용되기도 하였다. 2017년에는 구글에서 개발한 딥베리언트(DeepVariant)는 차세대 유전체 해독(Next Generation Sequencing, NGS) 데이터에서 정확한 염기 서열의 콜링을 위해 적용되기 시작하였다. 2018년에는 EHR(Electronic Health Records)로 부터 환자의 예후를 예측하거나 단백질 구조를 예측하거나 영상 이미지를 통해 피부암을 진단하는 다양한 분야로 확장되어 딥러닝 기술이 적용되고 있다.
하지만 이들 딥러닝 기술이 학습될 당시의 성능이 실제로 임상현장에서 적용될 때와 똑같은 성능이 제대로 발휘가 될지에 대해 의문을 가지고 의료기관의 임상의들과 이를 심의하는 규제 기관에서는 주의 깊게 이들 기술을 평가하고 고려중에 있다. 아직 딥러닝 기술의 예측 모델을 만드는 곳에서는 제대로 된 근거를 만들기 위한 노력을 더 해야 하는 숙제가 많이 남아 있기도 하다.
어쨌거나 분명한 것은 생명과학/의학 분야에 증가되는 데이터와 딥러닝 기술의 발전은 미래의 많은 문제를 해결할 것으로 보며 미래 전망은 매우 밝다. 그래서 이 리뷰 논문의 마지막 부분에서는 미래 전망(Future perspective)이라는 세션에서 미래의 인공지능/딥러닝이 헬스케어 분야에 어떻게 적용될지 흥미있는 시나리오를 제시하고 있다.
◇시나리오
한 여성은 직장에 출근하는 중 자신의 휴대폰으로 약국에 들러 혈액과 소변 검사를 하라는 알람을 받게 된다. 이 알람은 그녀의 건강관리 기록, 의료영상 이미지, 유전체 데이터, 혈액 기반의 전사체, 대사체 및 그녀의 심박수, 혈압, 근력, 및 기타 정신적 상태 데이터들을 프로파일링하는 인공지능 시스템을 통해 전달됐다.
이 권고안들은 헤아릴 수 없을 정도의 엄청난 데이터를 트레이닝해서 나온 것이다. 즉, 수백만 개의 세포 생물학적 데이터셋 뿐만 아니라 자신의 친척들을 포함해 자신과 비슷한 의학적 상황에 있는 대상자들과 수억 명의 정상인들과 비교 분석을 근거로 도출하게 되었다.
이 여성은 약국에서 혈액검사에 기반한 전사체의 변화 및 소변검사를 통한 대사체의 변화를 통해 신경근 퇴행성 질환 가능성이 발생했음을 알게 되었다. 이러한 결과에도 이 여성은 그렇게 놀라지 않았다. 그 이유는 이 여성은 이미 오래전부터 데이터를 통해 이러한 일이 내년 언제 쯤에는 일어나리라는 것을 예상하고 있었기 때문이다.
사실 이 여성은 어머니 자궁 내에 있을 때부터 병원성 변이를 가지고 있다는 것을 알고 있었고 그 변이에 대해 편집을 해서 복구할 수 있었지만 인공지능 시스템이 발병 가능성에 대해서 낮게 평가함으로써 그녀의 어머니는 치료를 선택하지 않았다.
아무튼 현재 자신의 건강 상태를 알게 된 이 여성은 자신의 유전체와 전사체를 포함한 그녀의 모든 데이터를 분석해 그녀에게 최적화된 맞춤식 유전 의학 서비스를 제공받게 되었다. 인공지능 시스템의 도움을 받아 설계된 치료제에 대해 걱정하는 사람들이 아직 많을 수는 있지만 결론부터 말하자면 시원한 바람이 부는 가을 저녁에 산책하는 것보다 더 안전하다. 100번 적용하면 99번 정도가 높은 수준의 효능을 보여주었다.
이 치료제의 인체 내 안전성을 예측하기 위해 인공지능 기술을 이용해 예측하게 되는데 영장류 또는 동물을 통해 전임상 시험을 통해 예측하는 것보다도 인공지능 시스템을 통해 안전성을 예측하는 것이 더 정확하다는 결과를 매번 보여주었다. 결국, 그 인공지능 시스템은 규제 기관의 승인을 받게 되었다.
다시 그 여성의 이야기를 마저 해보자면, 그 여성은 다음날 바로 약을 선택하고 또 근처 자신의 치료를 담당하는 카운슬러를 만나게 된다. 그리고 그 카운슬러와의 대화를 통해 치료법에 대해 이야기를 나눈다.
1년 넘게, 그녀가 자신의 약 처방 및 치료 결정에 관여하면서 그녀가 가지고 있는 휴대폰이나 웨어러블 장치 및 생체 정보를 측정할 수 있는 다양한 장치 등을 통해 걷는 속도나 팔을 흔드는 강도 등 관련 그녀가 하는 모든 신체활동 및 모든 신체 지표가 계속해서 기록되며 그녀는 2주마다 한 번씩 약국을 들러 그녀의 전사체, 대사체를 지속적으로 모니터링하게 되었다.
치료 후 1년 만에 그녀의 신경근 퇴화 증상이 완전히 멈추었다는 결론을 자신의 데이터를 통해 도출하게 되었으며 그녀 자신의 질병도 효율적으로 치료해냈을 뿐 아니라, 그녀의 모든 데이터는 미래의 아플 사람들에게 더 나은 치료를 제공할 수 있게 인공지능 시스템에 자동으로 통합되었다.
이 시나리오와 같이 지금 당장은 아니지만 가까운 미래에는 인공지능/딥러닝 기술이 헬스케어 분야 많은 문제를 빠르게 해결하면서 우리에게 가시적인 성과들을 보여주게 될 것이다.
출처: Michael Wainberg, Daniele Merico, Andrew Delong & Brendan J Frey, Deep learning in biomedicine. Nature Biotechnology 36, 829-838 (2018)