김태형 테라젠이텍스 이사
구글 딥마인드(DeepMind)가 단백질 3차 구조를 예측하기 위해 개발한 알파폴드(AlpahFold)는 작년 12월 멕시코 칸쿤에서 열린 CASP(Critical Assessment of Structure Prediction)13 대회에서 월등한 성적으로 우승하였다. 2년 주기로 열리는 CASP는 단백질 폴딩(Protein folding) 문제를 예측하는 대회로 단백질 구조 분야의 월드컵이라고 불린다.
2016년 봄 DeepMind팀이 알파고로 최고의 바둑 프로기사들을 모두 이겨 세계를 놀라게 한 것처럼 알파폴드는 단백질 구조 분야의 전세계 전문가를 모두 이겨 많은 과학자들을 놀라게 했다.
그렇다면 DeepMind가 신약 개발에 뛰어든 것일까? 이런 의문과 함께 그 가능성과 한계를 정리해 봤다.
단백질 구조를 예측할 수만 있다면, 단백질 구조에 다른 화학 분자가 물리적으로 어떻게 결합할 것인지를 효율적으로 결정할 수 있게 된다. 대부분의 약물들은 타깃이 되는 단백질에 결합하고서부터 약물의 특정 기능을 발휘한다.
이번 알파폴드가 보여준 기술은 간단하게 말하면 수천개의 단백질 데이터를 인공지능 기술로 학습해 실제 단백질 모양을 예측하는 것이다. 페이스북에서 사람의 얼굴 사진을 인식하는 것과 비슷한 딥러닝 기술이다.
2014년 구글에서 6억5000만 달러를 받은 DeepMind의 창업자인 Demis Hassabis는 딥러닝 기술에 있어 더 많은 아이디어를 내고 더 많이 시도하는 것이 훨씬 더 창의적이라며 이런 시도를 가속화 할 것이라고 발표했다. 이번 알파폴드 CASP13 발표는 이런 시도 중에 하나라 볼 수 있다.
알파고 흥행 직후, DeepMind의 Rich Evans라는 연구원은 딥러닝을 이용한 단백질 폴딩 문제를 해결할 수 있는 어느 정도의 성공적인 프로토타입을 입증함으로써 DeepMind 내에서 이 연구 프로젝트를 전담하여 연구 개발하는 것을 승인받게 된다. 과학 분야에서도 가장 어렵다는 단백질 폴딩 문제를 푸는 연구를 DeepMind가 시작하게 된 것이다.
개인적으로도 알파폴드와 같은 인공지능 기술이 과연 복잡한 신약개발의 전 과정에 있어 어느 분야에서 어느 정도 성능개선을 보일 수 있을까 하는 의문이 많았다. 이번 알파폴드의 CASP13 결과는 그 가능성을 어느 정도는 보여줬다.
알파폴드는 분자들의 상호 거리(pairwise distance) 예측→후보구조 예측→적합한 후보들의 우선순위를 결정하는 방법을 적용하고, 구글의 엄청난 계산 서버를 활용했다. 핵심적인 딥러닝 알고리즘으로는 GAN(Generative Adversarial Network)을 사용하였다.
알파폴드는 폴딩에서 예측된 거리 분포만을 사용해 모델구현을 개선하였으며 모델 선택과 트레이닝 데이터 선택에 있어서 매우 운이 좋았거나 훌륭한 전략적 선택을 한 듯하다. 즉, 딥마인드의 알파폴드팀은 획기적으로 개선된 알고리즘을 개발한 것은 아니지만 기존의 단백질 폴딩 문제를 해결하는 워크플로우에 딥러닝 학습을 적용하여 이를 훌륭하게 해결했다고 볼 수 있다.
이번 CASP13 대회에서는 알파폴드 이외에도 수십 팀이 참여했는데 그중 Zhang 그룹 또한 알파폴드와 똑같은 'Deep convolutional residual neural networks'를 사용했다 이 둘의 차이는 알파폴드가 더 많은 레이어와 더 많은 트레이닝 셋을 사용했다는 정도의 차이만 있다.
DeepMind팀의 참여와 알파폴드의 성과로, CASP대회는 DeepMind 참여 이전과 이후가 확연히 달라질 것으로 보인다. 즉, 앞으로는 알파폴드와 Zhang그룹이 적용한 딥러닝 학습 알고리즘을 훨씬 더 많은 CASP 참가자들이 구현하게 될 것으로 보인다. 그래서 다음 대회부터는 훨씬 좋은 결과가 발표될 것으로 예상된다.
실제로 이번 대회를 통해 개선된 대부분의 방법론은 거의 딥러닝 학습 모델을 적용한 도메인 구조 예측이며 지난 CASP12 우승팀 성적은 지금 대회에서의 평균 수준 정도밖에 안된다. 딥러닝 적용으로 인해 이번 대회부터 기술 향상 수준이 급격히 높아진 것이다.
DeepMind의 기술 향상은 구글의 거대한 데이터 센터의 컴퓨터 자원을 최대한 지원받음으로써 가능했다. 즉, 알파폴드의 성공은 소프트웨어의 발전도 중요하지만 풍부한 하드웨어/컴퓨터 자원도 중요하다는 시사점이 있다.
따라서, 내재화된 계산 자원이 빈약한 대학 연구소와 제약회사들은 알파폴드와 같은 수준의 연구를 쉽게 이룩 할 수는 없었을 것이다. 이러한 자원상의 한계로 인하여 연구소와 제약사의 클라우드 컴퓨팅 활용도 증가할 것으로 보인다. 구글은 알파폴드 연구에 사용되었던 것과 동일 성능의 클라우드 환경을 이미 서비스로 제공하고 있다. (구글은 이번 알파폴드 발표로 구글 클라우드 홍보를 제대로 한 셈이다.)
알파폴드는 이제 첫걸음으로 아직 성능상의 개선점도 많이 남아 있다. 알파폴드의 예측 결과는 다른 연구자들에 비해 좋은 성적을 보였지만 절대적인 기준으로 완벽한 것은 아니다. 알파폴드는 이 대회에서 제출된 단백질 90개 중 43개 테스트에서만 다른 경쟁자보다 평균 15% 정도 개선된 결과를 보였다. 하지만 해당 기술이 학술적으로도 의미가 있고 실사례에서 재현 가능한 수준으로 활용 되려면 시간이 더 많이 필요해 보인다.
실제 사례에서 널리 이용되기 어려운 이유중 하나는 폴딩문제가 신약개발에 핵심기술이 아닌 요소 기술이기 때문이다. 폴딩을 정확하게 예측한다 하여도 특정 신약 후보 물질에 결합할 새로운 단백질을 정확하게 예측해내야 하는 새로운 숙제가 남아있다. 이런 문제는 DeepMind의 알파폴드 팀도 현재는 해결하지 못한 숙제이다..
기술적 한계는 있으나 방향은 분명하다. 샌프란시스코의 Atomwise 같은 스타트업은 신약개발을 위해 딥마인드가 시도했던 것과 같은 딥러닝 기술을 이미 적용하고 있다. 대형 제약회사들도 이런 신생 인공지능 기반 신약개발 회사들과 협력하여 다양한 시도를 진행중에 있다.
머크(Merck)와 노바티스(Novartis) 같은 회사들도 단백질 폴딩의 문제를 DeepMind 만큼 잘 해결하지는 못했지만 신약 개발 과정의 여러 다른 파트(후보물질 및 바이오 마커 발굴)에서 딥러닝을 이미 적용해 왔었다. 노바티스의 경우는 이러한 딥러닝 기술이 신약개발 분야에 적용되는 것은 시간문제라고 여기고 있으며 현재는 신약개발의 일부 영역에서만 활용되고 있지만 곧 신약개발 전체 차원으로 확장해 적용될 것이라고 말하고 있다.
사실 이번 딥마인드의 단백질 폴딩 문제 해결은 아주 복잡하고 어려운 신약개발에 있어 아주 국소적인 영역에 적용된 사례라 아직은 첫걸음을 내딛은 수준으로 평가된다. 하지만 이러한 개선으로 향후 신약 개발 분야 기술 발전을 가속화시킬 가능성이 높아진 것은 분명하다.
출처:
- https://deepmind.com/blog/alphafold/
- http://predictioncenter.org/casp13/doc/CASP13_Abstracts.pdf
- https://www.nytimes.com/2019/02/05/technology/artificial-intelligence-drug-research-deepmind.html