남궁석 SLMS(Secret Lab of Mad Scientist) 대표
지난 연재에서 언급한대로 단백질의 아미노산 서열로부터 2차 구조를 예측하는 문제는 1970년대 이후 지속적으로 발전이 이루어져 2000년대 중반에 이르러서는 아미노산 서열에서 약 70-80% 의 정확도로 예측이 가능해졌다. 그러나 2차 구조의 예측과는 달리 단백질이 어떤 3차원 구조를 하고 있는지를 예측하는 것은 그리 빠른 진보가 이루어지지 않았다. 첫번째 연재에서 소개한 안핀센의 연구에서 그는 자연계의 단백질이 가지는 3차원 구조는 열역학적으로 가장 안정된 상태로 존재하고 있다고 주장했다. 단백질이 가질 수 있는 여러가지 3차원 구조의 상태를 모으고, 이들 구조의 열역학적 상태를 계산할 수 있다면, 이들 중 가장 낮은 에너지 상태인 구조가 바로 단백질이 생체 내에서 가지는 3차원적 구조라는 주장이었다.
그러나 곧 이러한 나이브한 기대는 쉽게 실현되기 힘들다는 것을 알게 되었다. 1969년 사이러스 레빈탈(Cyrus Levinthal)은 단백질이 가질 수 있는 3차원 구조는 천문학적 숫자로써 단백질이 가질 수 있는 구조의 모든 경우를계산하는 것은 불가능하다는 것을 입증했다.[1] 가령 100개의 아미노산으로 구성된 아미노산은 99개의 펩타이드 결합으로 이루어져 있으며, 하나의 펩타이드 결합은 두 개의 자유롭게 회전할 수 있는 결합이 있으므로, 198개의 회전할 수 있는 관절이 있는 셈이다. 198개의 회전할 수 있는 관절이 가질 수 있는 모든 조합은 우주에 존재하는 모든 원자의 갯수만큼이나 많으므로, 단백질 구조를 가능한 모든 조합을 통하여 찾는 '완전 탐색(brute force)' 방식의 계산은 불가능하다는 것이다.
그러나 실제 생체 내에서 단백질이 3차원 구조로 접히는 과정은 매우 빠르게 일어난다. 즉 단백질은 3차원 구조로 접히는 과정에서 가능한 모든 조합을 무작위적으로 탐색하는 것이 아닌, 빠르게 접힐 수 있는 일종의 ‘지름길’이 있고, 이를 통하여 빠르게 3차원 구조를 형성한다는 것을 의미한다.
1987년 생물물리학자 케네스 딜(Kenneth A Dill)은 단백질이 3차원 구조를 형성하는 과정과 단백질의 에너지의 관계를 일종의 '깔때기(Funnel)'에 비유한 '단백질 접힘 깔때기(Protein Folding Funnel)'라는 개념을 제시했다.[2] 단백질이 제대로 된 3차 구조를 형성하지 못하는 경우에는 (Unfolded) 높은 에너지 상태를 가지고 있고, 생물체 내에서 3차원 구조를 형성하고 있는 단백질은 제일 낮은 에너지 상태를 가지고 있다. 그러나 단백질은 두가지 에너지 상태만 가지고 있는 것이 아니라, 수많은 중간상태를 가지고 있다는 것이다. 즉, 일부 제대로 된 3차 구조의 특징을 가지고 있는 수많은 중간상태가 존재하고, 때로는 이러한 중간상태를 벗어나지 못하는 경우도 생긴다. 에너지가 높은 상태, 즉 언폴딩된 상태의 경우의 수는 많지만, 에너지 상태가 낮아지면서 단백질이 자연적인 3차 구조에 가까워질수록 그 경우의 수는 적어진다. 즉 단백질이 생체 내에서 접히는 과정은 마치 경사면을 가지고 있지만, 떄로는 매우 표면이 울퉁불퉁한 깔때기와 같은 형태로 높은 에너지 상태에서 낮은 에너지 상태까지 수많은 상태로 이루어져 있으며, 이러한 복잡한 경관 내에서 제일 아래의 안정된 3차 구조 상태를 어떤 방식으로 효율적으로 찾아가게 되면 단백질 3차 구조를 규명할 수 있다고 믿었다. 그렇다면 이렇게 물리적인 원리에 기반하여 단백질의 3차 구조를 찾으려는 시도는 어떻게 이루어졌을까?
이제 ‘ab initio('처음부터' 라는 뜻의 그리스어)' 예측이라고 불리는 단백질 3차 구조의 예측 시도를 소개해 보도록 한다.
분자동역학 시뮬레이션
그렇다면 단백질의 가장 안정된 에너지 상태를 탐색하는 방법에는 어떤 것이 있을까? 가장 먼저 시도된 것은 분자동역학(Molecular Dynamics) 시뮬레이션이었다. 이것은 단백질을 구성하고 있는 원자의 상호작용을 뉴턴의 운동법칙에 의해서 계산하여 단백질을 구성하는 원자들의 움직임을 시뮬레이션하는 것이다. 단백질을 구성하고 있는 원자의 위치와 운동속도, 그리고 원자와 분자간의 상호작용을 규정하는 역장(Force Fields)가 주어진다면, 뉴턴의 운동법칙에 의하여 이들의 움직임이 계산될 수 있으며, 이에 따라 시간에 따라서 변하는 단백질의 구조는 궁극적으로 가장 안정적인 상태, 즉 열역학적으로 가장 안정된 상태로 수렴할 것이라는 것이 그 기본적인 원리이다.
그러나 분자동역학 시뮬레이션에 의해서 단백질의 3차원 구조를 규명하는 것은 쉬운 일이 아니었다. 일단 분자동역학에 의한 단백질 시뮬레이션은 매우 많은 계산이 요구되는 반면, 생물학적으로 의미가 있는 시간(마이크로초 - 밀리초) 수준의 시뮬레이션을 하기 위해서는 엄청난 연산이 필요하다. 그리고 이렇게 조금씩 단백질을 구성하는 원자의 위치를 바꾸어가면서 에너지를 탐색할때 도달하는 '에너지의 최소점'은 반드시 단백질이 가질 수 있는 가장 낮은 수준의 에너지의 최소점이 아닐 가능성이 높다. 즉 앞에서 설명한 '단백질 접힘 깔때기'에서 보는 것처럼 단백질이 가질 수 있는 수많은 에너지 상태에서 제한된 시간동안의 분자동역학 시뮬레이션으로 도달할 수 있는 지점은 '주변에서 가장 낮은 에너지의 최소점'인 경우가 보통이며, 단백질이 가질 수 있는 에너지의 전체적인 최소 지점에 도달하기에는 너무나 오랜 시간이 걸린다. 결국 분자동역학은 어떤 주어진 단백질 구조에서 크게 변하지 않는 상태에서 가장 안정적인 구조를 찾아내는 데는 효율적이지만, 단백질이 전혀 3차원 구조를 형성하지 못한 상태에서 단백질이 가질 수 있는 가장 안정적인 구조를 찾기에는 효율적인 방법이 아니었다.
분자동역학 시뮬레이션에 의한 단백질의 구조 계산에는 너무나 많은 시간이 소요되므로, 계산 시간을 줄이기 위한 여러가지 방법이 모색되었으나, 큰 성과를 보지는 못했다. 그러나 1990년대 중반, 단백질 구조의 예측에 어느 정도의 돌파구를 마련한 방법이 등장한다.
단편의 조립 - 로제타(Rosetta)
1990년대 중반, 워싱턴대학의 생화학자 데이빗 베이커(David Baker)는 분자동역학 시뮬레이션에 비해서 보다 신속하게 다양한 단백질 구조를 형성하고, 이의 에너지를 계산하는 방법을 개발한다.[3] 그의 방법은 일단 서열 검색을 통해, 이미 규명된 단백질의 구조에서 유래된 짧은 구조(아미노산 3-15개 정도)들을 찾고, 이를 조립하는 것이었다. 이렇게 검색된 단백질 구조 단편의 조합을 무작위적으로 조립하는 과정을 반복하면서 현재의 단백질 구조의 에너지를 계산한다. 만약 특정한 단편을 삽입하는 것이 단백질의 에너지 상태를 낮춘다면, 이 모델이 맞다고 간주하고, 이것을 주형으로 삼아서 다른 위치에서 또 다른 조각을 삽입한다. 이렇게 수많은 모델을 만든 후, 이 중에서 가장 에너지가 낮은 형태의 것을 선택한다.
즉, 기존에 알려진 구조의 조각을 이용하여 많은 구조 조합을 만든 다음 이 중에서 에너지가 제일 낮은 모델을 선택하는 방식으로 구조를 예측하는 것이다. 분자동역학에 의해서 단백질을 구성하는 모든 원자의 상호작용을 계산하는 방법은 다양한 구조를 형성하는데 너무나 많은 계산이 요구되므로, 이러한 계산량을 줄이기 위해서 이러한 방법이 동원되는 것이다.
그렇다면 특정한 단백질의 구조 중에서 가장 낮은 에너지를 가지는 구조가 어떤 것일지는 어떻게 알 수 있을까? 단백질이 가지는 구조가 얼마나 안정할지는 단백질을 구성하는 원자들간의 상호작용과 주변에 존재하는 물 분자 등과의 상호작용에 의해서 결정되는데, 이러한 상호작용에는 반데르발스 상호작용, 정전기적 상호작용, 물과의 상호작용, 수소결합 등 여러가지 요소가 있다. 또한 단백질을 구성하는 아미노산의 폴리펩타이드 결합과 아미노산의 사이드 체인의 회전각 역시 단백질의 에너지에 영향을 미친다.
이러한 요소들을 종합하여 어떤 형태의 단백질 구조가 가지는 에너지를 계산해 주는 것이 에너지 함수(Energy function)이라고 하며, 에너지 함수는 앞에서 설명한 여러가지 단백질의 에너지를 결정하는 여러가지 요소와 이들 요소가 에너지에 기여하는 가중치를 합쳐서 만들어진다.[4] 에너지 함수에 의해서 계산되는 특정한 단백질 구조의 에너지는 일종의 추정값이며, 이렇게 계산된 계산값이 실제 단백질의 특정한 구조에 상응하는 에너지와 유사할수록 단백질 구조의 예측은 정확해지게 된다. 이러한 에너지 함수는 물리화학적인 이론과 그동안 축적된 단백질 구조, 실험치 등을 참조하여 지속적으로 개선된다.
결국 어떤 주어진 서열에 대한 단백질 구조의 예측은 다음과 같은 과정을 통하여 이루어진다. ①주어진 단백질 서열을 약 6-9개의 아미노산으로 자르고, 이 아미노산에 상응하는 단백질 구조 조각을 탐색한다. ②이렇게 얻어진 단백질 구조 조각들을 결합하야 다양한 회전각으로 돌려 다양한 구조를 얻는다. ③생성된 다양한 단백질 구조가 가지는 에너지를 에너지 함수에 의해서 계산하여 가장 낮은 에너지를 갖는 구조들을 찾는다. 이때 사용하는 에너지 함수는 모든 원자를 대상으로 계산하지는 않고, 계산 속도를 빠르게 하기 위하여 단순화한(coarse-grained) 에너지 함수이다. ④구조 조각들을 모아서 얻어진 구조 중 가장 낮은 에너지값을 가지는 것들의 구조를 최적화한다. 단백질을 구성하는 펩타이드 결합의 결합각과 단백질의 아미노산 사슬이 가질 수 있는 다양한 회전형태(Rotamer)를 적용하여 미세한 구조적 변화를 가진 다양한 구조를 만들고, 이들의 에너지 상태를 모든 원자의 상호작용을 고려한 에너지 함수를 이용하여 계산한다. ⑤이렇게 얻어진 수많은 단백질 구조 중에서 가장 낮은 에너지값을 가진 것을 선택한다.
베이커 연구실에서 개발한 단백질 구조 예측 방법은 로제타(Rosetta)라는 이름으로 불리게 되었고, 이 방법은 약 100개 아미노산 이하의 작은 단백질에 대해서 원래 실험적으로 규명된 구조와 어느 정도 유사한 구조를 예측할 수 있다는 것을 보여주었다. 그러나 이 방법에는 여러가지 한계가 있었는데, 아미노산의 갯수가 100개 이상인 대부분의 단백질에 대해서는 그리 정확한 예측이 불가능했다. 그리고 단백질 동역학 등의 방법에 비해서 더 빠른 계산을 할 수 있는 방법이긴 했지만, 단백질 구조를 예측하기 위해서는 어마어마한 컴퓨터 자원이 필요한 문제가 있었다. 이러한 문제를 해결하기 위하여 수많은 개인 사용자의 컴퓨터 자원을 이용하여 단백질 구조 예측을 수행하는 "Rosetta@home"이라는 프로젝트를 진행하기도 했다.[5]
어쨌든 로제타와 같은 ab intio 구조예측 방법은 어느 정도 단백질의 구조를 예측할 수 있다는 가능성을 제시해 주긴 했지만, 실제로 실험적으로 규명된 단백질 구조와 같이 생물학자가 단백질의 기능을 이해하는데 유용할 수준의 예측을 제공해 주지는 못했다.
상동성 모델링에 의한 단백질 구조 예측
이렇게 ab initio 구조예측이 좀처럼 생물학자들에게 유용한 정보를 줄 수 있는 수준까지 발전하지 않고 있는 상황에서, 실험적인 방법에 의해서 점점 많은 구조가 규명되었고, 이를 '주형((Template))'으로 이용하여 아직 구조가 규명되지 않은 단백질의 구조를 유추하려는 시도가 진행되기 시작하였다.[6]
앞의 연재에서 언급한 것처럼 어떤 단백질이 진화 과정을 통해서 서열 변화를 일으키게 되더라도, 이 단백질의 구조가 변하는 것은 서열 변화의 속도에 비해서 훨씬 느리다. 즉, 아미노산 서열의 변화가 크게 누적되어 고작 30%의 아미노산 서열만이 일치하는 두 개의 단백질이 구조적으로는 거의 변하지 않는 경우가 많이 있다. 즉 이미 구조가 실험적으로 밝혀진 단백질이 있다면, 이와 어느 정도 서열이 유사성이 존재하는 단백질의 구조 역시, 이미 실험적으로 밝혀진 구조와 유사할 것이라고 가정하고 이에 따라 구조를 예측할 수 있다는 것이다. 이렇게 이미 실험적으로 밝혀진 구조를 주형(Template)으로 이용하여, 아미노산을 치환하여 구조를 예측하는 것을 상동성 모델링(Homology Modeling)이라고 한다.
상동성 모델링에 의한 단백질 구조 예측의 과정을 간단하게 설명하면 다음과 같다. ①이미 단백질 구조가 실험적으로 규명된 데이터베이스에 등록된 단백질의 아미노산 서열 데이터베이스에서 구조 모델링을 수행할 단백질 서열과 유사한 서열을 검색한다. 최초에는 단백질 서열 자체를 이용하여 검색했으나, 이후에 등장한 방법에서는 일단 구조모델을 만들 단백질을 서열 데이터베이스에서 검색하여, 다중 서열 정렬(Multiple Sequence Alignment, MSA)를 만든 후, 이를 이용하여 만든 프로파일을 이용하여 구조 데이터베이스에서 검색을 수행한다. 이렇게 함으로써, 검색하려는 단백질과 상동성이 높은 단백질의 구조가 존재하지 않는 경우에도 낮은 상동성(아미노산 일치도 30% 이하)을 가진 구조를 검색하여 이를 주형으로 삼을 수 있다. ②주형으로 삼을 구조의 단백질 서열과 구조 모델을 만들 단백질 서열간 서열 정렬을 수행한다. ③만들어진 서열 정렬에 따라서 주형으로 삼는 구조의 아미노산을 치환한다. ④주형으로 삼을 구조에서 아미노산을 치환한 단백질 모델은 후속적인 모델 개선 작업을 거치는데 이를 위해서 짧은 분자동역학적 계산을 통하여 구조 모델의 에너지를 최적화하도록 모델을 변형하는 작업을 거친다. 이를 통하여 아미노산을 치환하여 발생할 수 있는 아미노산 사이드 체인간의 충돌, 불안정한 펩타이드 결합 등의 문제가 해소된다. ⑤루프 모델링 : 아미노산 서열이 유사한 단백질에서 아미노산 서열이 가장 많이 차이나는 곳은 대개 알파 나선이나 베타 시트로 되어 있는 부분이 아닌 이를 연결하는 루프 영역이다. 사실 루프 영역은 알파 나선이나 베타 시트와 같은 구조적인 제약이 없는 곳이므로 구조 예측을 정확하게 하는 것도 쉽지 않다. 주로 ab initio 모델링에 사용되는 여러가지 방법을 통하여 루프 영역의 구조를 예측하지만, 그 정확도는 알파 나선이나 베타 시트 부분에 비해서 떨어진다.
이렇게 상동성 모델링을 통해서 이미 실험적으로 구조가 밝혀진 단백질과 유사한 서열을 가진 단백질의 구조를 예측할 수 있게 되었다. 그렇다면 상동성 모델링으로 단백질 구조를 예측하려면 과연 구조가 밝혀진 단백질과 어느 정도의 서열이 일치해야 할까? 만약 구조가 알려진 단백질과 아미노산 서열이 50% 이상 일치하는 경우라면 매우 높은 정확도로 구조를 예측할 수 있었다. 만약 30-50% 정도의 일치도를 보이는 비교적 유연관계가 떨어지는 단백질이라면 구조 예측의 정확도는 상당히 떨어진다. 아미노산 서열이 일치도가 30% 이하라면 정확한 구조 예측이 어려워지고, 이 정도의 상동성을 가진 단백질을 찾아서 정확한 서열 정렬을 하는 것도 힘들어지기 때문이다. 이렇게 상동성 모델링이 가능한 한계에 있는 낮은 상동성을 가진 단백질의 경우, 정확한 서열 정렬을 하는 것이 상동성 모델링의 성공의 핵심이 되며,[6] 기존의 방법에 비해서 더 낮은 상동성을 가진 단백질을 효율적으로 찾아 복수의 주형을 이용한 상동성 모델링은 기존의 방법보다 좀 더 정확한 모델을 만들 수 있다는 보고도 있었다.[7]
그러나 상동성 모델링은 유사한 서열을 가진 단백질 중 구조가 규명된 것이 전혀 없는 새로운 구조를 가진 단백질의 경우라면 아예 구조 예측이 불가능하다는 근원적인 한계가 있었다.
그러나 이러한 한계에도 불구하고 2010년 초반까지 상동성 모델링은 단백질 구조 예측방법 중 그나마 생물학자들이 연구에 사용할 수 있을 수준의 실용적인 예측을 내놓는 방법이었다. 주형을 사용하지 않는 Ab initio 예측 방법의 경우 1994년에 시작된 구조예측 대회인 CASP(Critical Assessment of Techniques for Protein Structure Prediction)가 10번째를 맞이한 2012년까지 아미노산 100개 이하의 작은 단백질에 한해서 어느 정도 유사한 예측이 가능했지만, 이것 역시 실험 구조에 비해서는 상당한 오차가 있었으며 아미노산 100개 이상의 단백질에 대해서는 예측이 어려운 실정이었다.
이렇게 수십년의 노력에도 불구하고 단백질 3차원 구조의 예측은 쉽게 풀리지 않는 문제로 남아있었다. 일부에서는 단백질의 3차원 구조 예측을 20세기의 가장 어려운 과학적 문제로 칭하기도 하였고 과연 21세기에는 이 문제가 해결될 수 있을지도 21세기의 처음 10년 동안에는 불확실했다. 그러나 이러한 상황은 2010년 이후부터 급격히 변화하기 시작하였다.
참고문헌
1. Levinthal, C. (1969). How to fold graciously. Mossbauer spectroscopy in biological systems, 67, 22-24.
2. Dill KA. 1987. The stabilities of globular proteins. In: Oxender DL, Fox CF, eds. Protein Engineering. Alan R. Liss Inc. pp 187–192.
3. Simons, K. T., Kooperberg, C., Huang, E., & Baker, D. (1997). Assembly of protein tertiary structures from fragments with similar local sequences using simulated annealing and Bayesian scoring functions. Journal of molecular biology, 268(1), 209-225; Rohl, C. A., Strauss, C. E., Misura, K. M., & Baker, D. (2004). Protein structure prediction using Rosetta. Methods in enzymology, 383, 66-93.
4. Alford, R. F., Leaver-Fay, A., Jeliazkov, J. R., O’Meara, M. J., DiMaio, F. P., Park, H., ... & Gray, J. J. (2017). The Rosetta all-atom energy function for macromolecular modeling and design. Journal of chemical theory and computation, 13(6), 3031-3048.
5. https://boinc.bakerlab.org/rosetta/
6. Hameduh, T., Haddad, Y., Adam, V., & Heger, Z. (2020). Homology modeling in the time of collective and artificial intelligence. Computational and structural biotechnology journal, 18, 3494.
7. Jaroszewski, L., Rychlewski, L., & Godzik, A. (2000). Improving the quality of twilight-zone alignments. Protein Science, 9(8), 1487-1496.
8. Meier, A., & Söding, J. (2015). Automatic prediction of protein 3D structures by probabilistic multi-template homology modeling. PLoS computational biology, 11(10), e1004343.