김태형 테라젠이텍스 이사
우리를 충격에 빠뜨렸던 이세돌과 알파고의 대결도 1년 전 이야기가 되었다. 지금은 인간이 알파고를 이기는 것은 불가능하다는 의견이 많다. 인공지능은 계속해서 학습하고 발전하면서 그 속도가 인간을 뛰어넘기 때문이다.
최근 유전체 의학 분야에서도 적용 가능한 강력한 딥러닝 및 인공지능 알고리즘들이 개발되고 있다. 이들 알고리즘은 기존에는 1000개 이상의 노드(1만 6000개 이상의 CPU)를 가진 분산형 병렬 처리 컴퓨터에서만 가동 가능했으나 지금은 대규모 기계학습에 적합한 GPU 클러스터가 나와 빠르고 경제적으로 대규모 기계학습이 가능해졌다.
또한 유전체 시퀀싱(whole genome sequencing) 비용은 2014년 이후 1000달러 이하로 낮아졌으며 2017년 1월 일루미나의 노바식(새로운 시퀀싱 플랫폼)의 등장으로 5년 이내 100달러 이하로 떨어질 것으로 예상한다. 우리가 일상적으로 마트에서 장을 보는 가격으로 각 개인의 유전체를 확보 가능하다는 이야기가 된다.
이로 인해 AI 기술을 이용한 유전체 빅데이터 분석 관련 연구 및 비즈니스는 급속히 발전하고 있으며 유전체 빅데이터와 딥러닝 기술이 탑재된 인공지능 프로그램이 머지않아 우리 앞에 성큼 다가올 것으로 전망한다. '유전체 + AI'에 있어 선도적으로 대응하고 있는 대표적인 회사인 딥지노믹스(DeepGenomics)를 자세하게 리뷰하고자 한다.
딥지노믹스는 2014년 3월 15일 캐나다 토론토 대학의 브렌던 프레이(Brendan Frey)가 스핀오프한 스타트업 회사다.
CEO인 브렌던은 구글 브레인 팀(Google Brain Team)의 헤드이며 토론토 대학에서 딥러닝 기술의 발전에 중요한 인물로 꼽히는 제프리 힌튼(Geoffrey E. Hinton)의 트레이닝을 통해 컴퓨터 과학자로 성장했다. 특히 브렌던은 2002년 아내 뱃속의 아기가 유전 질환 있다는 것을 알게 되고 유전상담사가 할 수 있는 일이 아무 것도 없다는 말에 충격을 받고 힘들어했던 경험이 있었다. 그는 그때 더 이상 고양이나 유튜브 동영상을 분류하는 일을 하지 않고 딥러닝 기술과 신경네트워크가 데이터를 이해하도록 훈련하는 기술을 이용해 사회를 근본적으로 변화시킬 수 있는 일을 하기로 했다. 그래서 변이와 질병 사이에 연관성을 이해하는 게놈에 초점을 맞춰 분석하기로 방향을 정했고 토론토의 MaRS 디스커버리 구역(MaRS Discovery District)에 기반을 둔 딥지노믹스를 설립한다. 이 회사는 DNA에 변이가 생겼을 때 어떤 일이 일어날지 예측할 수 있는 새로운 기술을 개발하게 된다.
그는 이 회사의 설립을 통해 기존 유전체 시퀀싱 시장의 판을 완전히 뒤바꾸고자 하였으며 이들이 수행하는 연구 및 서비스들은 게놈의학(Genome Medicine)의 미래를 보여준다고 생각될 만큼 무궁무진하며 큰 기대를 모으고 있다.
먼저 딥지노믹스는 기계학습과 유전체 빅데이터를 결합해 맞춤형 의료 서비스를 제공하는 것을 목표로 하고 있다. 즉, 기계학습을 사용하여 통합된 AI 기술을 이용해 질병을 진단하고 개인 맞춤 치료를 위해 사람의 능력보다 더 뛰어나고 빠르게 환자를 위해 필요한 정보를 임상 의사들에게 제공하고자 하는 것이다. 이를 위해 유전체와 의료 데이터 분석을 통해 작고 미묘한 신호를 찾아 정밀 의학, 유전체 검사 그리고 새로운 신약을 개발하는 것을 사업의 방향으로 잡고 있다.
이 회사는 중추신경계, 눈, 간과 관련된 멘델리안 질병에 집중해 신약을 개발할 계획을 발표했으며, 그 시작으로 멘델리안 질환 치료제의 초기 단계 개발에 집중하고 있다. 만약 개발된다면 전 세계 약 3억 5천만 명이 넘는 유전 질환 환자들에게 큰 도움이 될 것으로 예상한다.
특히 단일 유전자 변이로 인해 유전되는 유전 질환(monogenic disease)을 집중적으로 다룰 예정으로 특정 질병과 인과 관계가 있지만 검출하기 매우 어려운 유전 질환 돌연변이의 분석에 주력하고 있으며 이러한 방식은 유전 질환 환자들을 대상으로 신약을 개발하는 제약회사들의 큰 관심을 끌고 있다.
신약 개발은 임상시험 단계에서 대부분 실패하고 평균 약 3조 원 이상의 신약개발 비용이 들어가지만, 인공지능은 제약회사들의 실패 수를 대폭 줄이고 성공적인 약물을 더 빨리 찾을 수 있게 도움을 줄 수 있으므로 최근 기계학습을 이용해 신약개발을 하는 회사들이 부쩍 늘어나고 있다. 딥지노믹스 외에도 대표적인 회사로 영국의 인공지능 회사인 베네볼런트에이아이(BenevolentAI)와 구글의 알파벳의 칼리코(Calico)가 있다. 향후 5년 이내에는 대부분의 제약회사는 AI를 사용해서 신약을 개발하게 되지 않을까 한다.
딥지노믹스의 브렌던과 그의 동료들은 2015년 척수 근육 위축증(Spinal muscular atrophy)과 비용종성 대장암(nonpolyposis colorectal cancer)과 같은 질병들에 관여하는 DNA 패턴을 동정하는 데 있어 딥러닝이 얼마나 도움이 되는지를 이미 논문으로 증명했다.
이런 일들이 가능하게 된 이유는 데이터가 풍부해져 정보 기반 의학의 새로운 시대가 열렸기 때문으로 얻을 수 있는 수많은 종류의 데이터가 이미 존재하고 있고 이들 대량의 데이터를 처리하는 데 있어 적합한 기계 학습과 인공 지능 기술들이 개발돼 있다.
많은 트레이닝 데이터를 사용하여 추상적인 패턴을 찾는 강력한 방법으로 딥러닝이 제안되었으며 이 도구는 음성인식과 데이터를 분류하는데 탁월한 성능을 발휘하고 있음이 이미 증명되었다. 이 접근법은 이제 의학 이미지에서 질병의 징후를 발견할 방법을 제공하고 환자 기록을 통해 질병을 예측할 가능성을 보여준 의학 분야에서 새로운 용도로 빠르게 발전해 가고 있다.
우리는 이미 많은 양의 정보가 포함된 개인당 30억 쌍의 어마어마한 데이터를 가지고 있다. 하지만 우리가 필요한 것은 표현형과 정확한 임상 데이터이다. 이러한 데이터는 아직 현저히 부족하며 표현형과 유전형 사이의 격차가 너무 크다. 그래서 우리는 게놈 내 존재하는 변이를 확실히 확인하는데 그칠 뿐 그 변이가 질병을 일으킬지 또는 사람의 건강과 어떤 관련이 있을지 그리고 언제 어떻게 질병을 발생시킬지 현대 의학 및 과학적 지식으로도 전혀 알 수가 없다.
백만 명 또는 십억 명 게놈을 시퀀싱 한다고 하더라도 이 문제를 근본적으로 해결할 수는 없다. 지난 수 십 년간 인간 게놈을 시퀀싱하고 읽고 편집하는 기술의 비약적인 발전을 이루었지만 현재 우리는 게놈 대부분이 사실상 어떠한 기능을 하는지 전혀 알지 못하고 있다.
다행인 것은 유전체는 식품, 환경, 신체적 특징과 같은 다양한 다른 변수들과 달리 정해져 있다는 것이다. 환자 기록(patient records), 임상 노트(clinical notes), 진단 이미지(diagnostic images), 치료계획(treatment plans)과 같은 임상 데이터들과 함께 결합하여 적합한 딥러닝 기술이 적용된다면 평생 걸릴 일을 아주 짧은 기간 내 처리해 우리가 찾고자 하는 생명현상의 패턴인식(pattern recognition)을 할 수 있게 될 것으로 보인다.
그래서 유전체 및 임상데이터들이 기하급수적으로 늘어남에 따라 생물학은 가설 검증 기반에서 정보학적 기반 접근 방식으로 이동해 이 어려운 문제들을 해결하려 한다. 브렌던은 이를 실질적으로 가능하게 하려고 데이터를 스마트하게 모으고 처리하기 위한 핵심 구성 요소로 네트워킹을 통한 공동연구를 기반으로 한 유전학 네트워크 프로그램(Genetic Networks Program)과 신경 컴퓨터 프로그램(Neuro-computation Program) 양쪽에 참여해 두 프로그램 각각에 세계 정상급 전문가를 모으고 새로운 학제 간 연구를 통해 양질의 데이터를 확보하고 이를 효율적으로 처리하는 시스템을 구축해 가고 있다.
누군가가 30억 쌍의 문자로 표현되는 유전형과 생명현상 및 질병으로 발현되는 표현형 사이의 격차를 극적으로 줄일 수만 있다면 헬스케어 산업에 있어 분명히 게임체인저가 될 것이며, 이는 현재로서는 유전체 빅데이터와 인공지능 기술이 결합하여서만 가능해 보인다. 이러한 기술은 궁극적으로는 개인이 자신의 정보에 접근해 자신의 건강을 완전히 통제할 수 있는 '맞춤형 유전학'의 시대의 도래를 앞당겨 줄 것이다.
<참고 문헌>
- H. Y. Xiong et al., ‘‘The human splicing code reveals new insights into the genetic determinants of disease,’’ Science, vol. 347, no. 6218
- An AI-Driven Genomics Company Is Turning to Drugs: https://www.technologyreview.com/s/604305/an-ai-driven-genomics-company-is-turning-to-drugs/
- Deep Genomics applies AI to accelerate drug development for genetic conditions: https://www.utoronto.ca/news/u-t-s-deep-genomics-applies-ai-accelerate-drug-development-genetic-conditions
- Four Lessons In The Adoption of Machine Learning In Health Care: http://healthaffairs.org/blog/2017/05/09/four-lessons-in-the-adoption-of-machine-learning-in-health-care/
- Reprogramming the Human Genome: Why AI is Needed : https://www.youtube.com/watch?v=dcU93uo1qu0