남궁석 SLMS(Secret Lab of Mad Scientist) 대표
2020년 12월, 구조생물학의 역사에 하나의 이정표가 씌여졌다. 1994년에 시작되어, 2020년으로 14회째를 맞이하는 단백질 구조 예측 연구자들의 구조예측 대회인 CASP14(Critical Assessment of Techniques for Protein Structure Prediction) 결과가 발표되었다. 여기서 구글의 자회사인 런던 소재의 딥마인드(DeepMind)가 개발한 인공기능 기반 단백질구조 예측 소프트웨어인 '알파폴드(Alphafold)'가 다른 경쟁자의 예측과 현격한 차이를 보이며, 실험적으로 결정된 구조에 거의 상응할 수준의 정확도로 단백질 구조를 서열부터 예측할 수 있다는 것이 발표되었다.[1] 사실 알파폴드가 CASP에 참여한 것은 CASP14가 두번째로, 2018년 처음 참가한 CASP13에서도 좋은 결과를 내긴 했지만, 그 수준은 다른 참가자에 비해서 나은 수준이었지, 그 예측 수준이 실험적 방법으로 규명한 구조에 필적한 수준인 것은 아니었다.
CASP14의 주최측에서는 알파폴드가 CASP14에서 얻은 성취를 이렇게 표현한다. "단백질 구조 예측 문제는 이제 알파폴드에 의해서 근본적으로 해결되었다. 과학자들은 이를 위해서 매우 오랜 시간동안 노력했고, 예상으로는 지금 이 정도의 정확도에 이르기까지는 훨씬 더 오래 걸릴 것으로 생각했다."[2]
그렇다면 과연 알파폴드는 어떤 '마법'을 부렸길래 이것이 가능했을까? 대부분의 '마법'이 마법사의 트릭을 알기 전에는 정말로 신기한 흑마법처럼 보이지만, 그 원리를 이해하면 '아 당연히 그런 것이구나'라고 생각되는 것처럼, 알파폴드의 '마법처럼 보이는 예측 결과' 역시 어느날 갑자기 인공지능이라는 흑마법에 의해서 가능했던 것이 아니라, 그동안 50년 동안 단백질 구조를 풀기 위해 노력했던 수많은 연구성과들이 집약된 결과인 것이다.
그렇다면 단백질 서열로부터 구조를 현재의 수준으로 정확하게 예측할 수 있기까지 그동안 어떤 과정이 있었을까? 단백질 구조 예측 이전에 각각의 고유한 단백질은 서로 구분되는 고유한 아미노산 서열로 이루어져 있다는 것이 알려지게 된 것은 언제부터일까?
흔히 대중매체에서 이야기하듯 "인공지능에 의해 단백질 구조 예측이라는 세기의 문제가 단번에 해결되었다"로 간단히 이야기하기에는, 알파폴드의 단백질 구조 예측에는 많은 배경이 있다. 즉, 단백질 구조 예측의 역사를 알아보는 것이 필요하다. 그리고 알파폴드 등에 의해서 가능해진 단백질 구조 예측은 구조생물학과 생명과학, 그리고 생명공학의 미래에 어떤 영향을 줄 것이며, 지금 현재 알파폴드가 예측 가능한 것과 그렇지 못한 것은 무엇일까? 새롭게 시작되는 이 연재에서는 알파폴드가 탄생하기까지 단백질 구조의 예측의 역사와 미래에 대해서 이야기해보도록 한다.... <계속>