남궁석 SLMS(Secret Lab of Mad Scientist) 대표
이전 연재에서 단백질의 1차 구조, 즉 아미노산의 서열이 밝혀지게 된 과정을 알아보았다. 그렇다면 아미노산 서열을 기반으로 하여 단백질의 입체구조를 예측하려는 노력은 언제부터 시작되었을까?
단백질의 구조는 고사하고 단백질의 아미노산 서열조차 전혀 알려져 있지 않았던 1950년대 초부터 이미 단백질이 어떤 입체구조로 존재할 수 있을지에 대한 이론적인 연구가 시작되었다. 일단 단백질을 구성하는 기본 단위인 아미노산 사이의 결합인 펩타이드 결합이 화학적으로 어떤 성질을 가지고 있다는 것은 이미 알려진 상태였고, 아미노산을 구성하는 화학 결합이 어떤 성질을 가지고 있는지도 알려졌기 때문에, 이러한 화학적 지식에 기반하여 아미노산이 연결된 폴리펩타이드가 어떻게 3차원 공간에서 배열되어 있을지에 대한 이론적인 모델을 구축하려는 연구가 시작되었다.
이렇게 화학적 지식에 기반하여 만들어진 최초의 단백질 구조에 대한 모델이 바로 '알파 나선(alpha-helix)'과 '베타 시트(beta-sheet)'다. 1950년, 칼텍의 화학자 라이너스 폴링(Linus Pauling), 로버트 코레이(Robert B. Corey), 허만 브랜슨(Herman Branson)은 펩타이드 결합을 형성하고 있는 폴리펩타이드가 어떻게 존재할 수 있는지에 대한 두가지 모델을 만들었다.[1,2] 이들의 모델은 실험적인 관찰에 근거한 것이 아니라 원자간의 거리, 결합간의 가능한 결합각 등과 같은 제약조건을 만족하면서 어떻게 단백질 사슬이 존재할 수 있을지를 순전히 이론적으로 예측한 모델이었다. 이러한 모델 구축에 의해서 구조를 유추하는 방법은 이후 왓슨-크릭에 의한 DNA 이중나선 구조의 규명에서 거의 동일하게 재현된다. 이러한 화학적인 지식과 직관에 의거하여 만들어진 모델이 나중의 실험에 의해서 매우 정확함이 입증되었다.
폴링 등이 제시한 단백질 구조 모델 중의 하나인 알파 나선(alpha-helix)은 그림 1과 같이 아미노산들이 결합된 폴리펩타이드가 나선형의 형태를 이루는 모델이다. 그렇다면 이러한 나선형 구조를 만드는 힘은 무엇일까? 폴리펩타이드를 구성하는 카르복실기의 산소 원자와 아미노기의 수소 원자간의 수소 결합이며, 알파 나선에서 카르복실기는 4번째 뒤 아미노산 아미노기의 수소 원자와 수소결합을 하여 나선 구조를 유지하게 된다. 이러한 나선 구조는 3.6개의 아미노산당 한 바퀴 회전하는(36 아미노산에서 10회전을 하는) 구조로 되어 있게 된다.
알파 나선은 단백질에서 바로 인접한 아미노산에서 근처(4개의 아미노산 간격을 둔)에 있는 아미노산 사이의 수소결합에 의해서 이루어지는 구조지만, 폴링이 제시한 두번째 구조인 베타 시트는 아미노산 서열에서 멀리 떨어져 있는(어떤 경우에는 아예 다른 폴레펩타이드 사슬인) 폴리펩타이드 가닥의 아미노기와 카르복실기의 수소 결합에 의해 이루어진다. 그림 2에서 보는 것과 같이 베타 시트에서 수소 결합은 인접한 폴리펩테이드 가닥이 서로 수소결합을 통해서 결합되는 구조이다.
알파 나선과 베타시트는 순전히 이론적인 모델로 제시되었지만, 곧 실험을 통하여 단백질 내에 실제로 이러한 구조가 존재한다는 것이 증명되었다. 1950년 폴링에 의한 알파나선 모델이 제시되었고, 당시 단백질의 X선 결정 데이터를 가지고 어떻게 단백질의 구조를 풀지 고민하던 막스 퍼루츠(Max Perutz)는 만약 폴링의 모델이 맞다면, 실제로 알파나선에 해당하는 특정한 X선 회절 패턴이 검출될 것이라고 예측하였고, 실험을 통하여 이의 존재를 확인하였다. 이후 단백질의 여러 3차 구조가 규명된 이후, 알파나선 및 베타시트는 거의 모든 단백질에 존재하는 단백질 구조의 기본적인 구성 요소라는 것이 알려지게 되었다.
지난 연재에서 다룬 아미노산 서열을 단백질의 ‘1차 구조’라고 한다면, 알파나선과 베타시트는 단백질의 '2차 구조' 라고 부른다. 알파나선과 베타시트는 단백질의 전체 구조라기보다는 단백질의 일부에서 관찰되는 아미노산들의 배열 방식이며, 대부분의 단백질은 알파나선 혹은 베타시트로 구성되어 있는 부분을 가지고 있다. 그림 2를 살펴보면 실제 단백질에서 알파나선과 베타시트가 어떤 식으로 나타나는지를 볼 수 있다. 적색 나선으로 표시된 알파나선으로만 구성되어 있는 단백질이 있는가 하면, 녹색 화살표로 표시된 베타시트로만 구성된 단백질도 있다. 그리고 이 둘이 적절히 섞여 있는 단백질이 있다. 알파나선과 베타시트를 연결하는 부분은 루프(Loop), 혹은 코일(Coil) 이라고 부르며, 이 부분은 알파나선이나 베타시트와 같이 정해진 규칙대로 구조가 정해진 것이 아니라 무정형의 구조로 되어 있다.
그러나 단백질에 알파나선 혹은 베타시트가 존재한다는 것을 확인했다는 것과 단백질에서 어떤 특정한 아미노산들이 알파나선 혹은 베타시트 형태로 존재하는지를 아는 것은 별개의 문제다. 그렇다면 아미노산 서열만으로 단백질이 알파나선, 베타시트, 혹은 루프로 어떻게 구성되어 있는지를 예측할 수 있을까?
아미노산 서열로부터 2차 구조의 예측
단백질의 결정 구조가 최초로 밝혀진 이후, 이를 분석하던 연구자들은 단백질 입체 구조에서 알파나선과 베타시트, 그리고 루프로 되어 있는 부분에서 아미노산의 빈도가 다르다는 것을 발견했다. 가령 글리신(Glycine)이나 프롤린(Proline)은 알파나선이나 베타시트의 내부에는 거의 존재하지 않았으며, 주로 알파나선이나 베타시트가 끝나는 지점에 존재했다. 그리고 알라닌, 글루탐산, 메티오닌 등은 알파 헬릭스에, 그리고 발린, 이소류신, 타이로신 등은 베타시트에 상대적으로 많이 존재한다는 것을 알게 되었다.
이렇게 단백질의 2차 구조에 따라서 아미노산의 빈도가 달라진다는 것이 알려지자, 이를 이용하여 아미노산 서열로부터 2차 구조를 예측하려는 시도가 진행되었다. 1974년 피터 추(Peter Y. Chou)와 제럴드 파스만(Gerald Fasman)은 그때까지 알려진 몇 가지 단백질 구조를 분석하여 아미노산들이 알파나선과 베타시트, 그리고 루프에서 나타나는 선호도를 계산했다. 그리고 서열에 따라서 각각의 수치를 나열하였다. 그리고 각각의 2차 구조 선호도가 높은 아미노산이 몰려 있는 부분을 찾았다. 만약 이웃한 아미노산 6개 중에서 4개 아미노산이 알파나선의 선호도 값이 1.03 보다 높을 경우 이 부분을 알파나선이라고 간주하고, 이웃 아미노산에 대해서 계속 검사를 수행하여 알파나선의 조건을 만족시키면 그 부분을 알파나선이라고 간주한다. 만약 전체적으로 알파 나선에 많이 나오지 않는 아미노산이 등장하기 시작하면 거기서 알파나선은 끝난다고 간주한다. 베타시트의 경우 연속된 아미노산 5개 중에서 3개 아미노산이 베타시트의 선호도가 1.0이 높을 경우 그 부분을 베타시트로 간주한다.
이 예측방법은 최초로 등장한 2차 구조의 예측 방법이며, 이후에 '추-파스만법' 이라고 부르게 되었다.[3] 이 방법을 이용한 2차 구조의 예측 정확도는 50-60% 정도였다. 이것은 단백질의 아미노산 서열을 나선, 시트, 루프로 예측하였을때 임의의 아미노산에서 그 예측이 맞을 확률이 약 50-60% 정도라는 것이다. 이러한 정확도는 현대적인 단백질 2차 구조 예측방법에 비해서는 현저히 낮은 수치지만, 아미노산의 서열만을 가지고 단백질의 2차 구조를 어느 정도 정확하게 예측한 최초의 사례라는 데서 큰 의미를 지닌다.
1978년, 역시 아미노산의 2차 구조에 따른 빈도를 이용한 다른 예측 방법이 등장하였다.[4] 해당 방법을 제안한 3명의 연구자(Garnier, Osguthorpe, Robson)의 이름 약자를 따서 'GOR 방법'이라고 부르게 된 이 방법에서는 어떤 아미노산 주변의 아미노산이 특정한 2차 구조를 가질 확률까지 고려하여 예측을 수행하였다. 주변 아미노산의 정보까지 고려하여 단백질 2차 구조 예측을 했을때 정확도는 67% 정도로 높아졌다.
그러나 아미노산이 2차 구조에 나타나는 빈도를 이용한 예측 방법은 한계가 있는 방법이었다. 일단 이때 사용한 2차 구조에 따른 아미노산 빈도는 그 당시까지 알려진 몇 개 안되는 단백질 구조를 통하여 구했는데, 구조를 통하여 정학하게 2차 구조를 알고 있는 단백질의 갯수가 적었기 때문에 정확성에 한계가 있었으며, 따라서 구조 예측의 정확도도 상대적으로 떨어지는 편이었다. 결국 2차 구조에 따른 아미노산의 조성의 차이만으로는 완벽히 단백질 2차 구조를 예측하기는 어려웠던 것이다.
이러한 초기의 예측의 한계는 1980년대 이후 다른 방향에서 돌파구가 생기게 된다. 1977년, 단백질의 서열 정보를 최초로 규명한 생거에 의해서 DNA의 염기서열을 신속하게 결정할 수 있는 방법이 만들어졌고, 이를 통해 DNA의 서열을 일단 결정한 다음, 이로부터 단백질의 아미노산 서열을 유추하는 방식으로 수많은 단백질에 대한 아미노산 서열 정보를 얻을 수 있게 되었다. 그리고 같은 종류의 단백질이지만, 서로 다른 생물 유래의 단백질로써, 조금씩 아미노산 서열이 다른 단백질의 서열 정보 역시 다량으로 획득하게 되었다. 한마디로 말해서 1980년대 이후에는 어떤 단백질이 생물의 진화과정을 거치면서 어떤 변화를 겪엇는지에 대한 '진화에 대한 정보'를 많이 얻을 수 있게 되었다는 이야기이다. 이러한 것은 단백질의 2차 구조 예측 방법에도 큰 영향을 미치게 된다. 과연 한 가지 단백질이 환경에 따라서 어떻게 변하는지, 그리고 여러 가지 종의 생물의 단백질 서열을 분석함으로써 어떤 정보를 새롭게 얻게 된 것일까?
단백질의 진화 과정 속에 내포된 단백질 구조의 정보
단백질은 진화과정 속에서 아미노산의 변화를 가지게 되지만, 단백질의 본질적인 기능에 영향이 없다면 구조는 크게 변하지 않는다. 특히 단백질의 구조 유지와 기능에 영향을 큰 영향을 미치는 부분일수록 아미노산의 변화는 적게 되며, 반면 기능에 별로 영향을 주지 않는 부분에서의 변화는 상대적으로 크다. 따라서 유사성을 가진 단백질의 아미노산 서열 정보를 많이 수집할 수 있다면, 단 한 종류의 아미노산 서열 정보보다 구조에 대한 더 많은 사실을 유추할 수 있다.
그렇다면 이러한 유사성이 있는 아미노산 서열을 동시에 비교하려면 어떻게 해야 하는가? 일단 유사성을 가진 단백질들의 아미노산 서열을 수집하고, 동일 혹은 유사한 아미노산끼리 정렬하고, 만약 중간에 삽입 혹은 삭제된 아미노산 서열이 있다면, 이를 맞추도록 갭(Gap)을 삽입하는 작업을 해야 한다. 이렇게 만들어진 아미노산 서열의 집합을 '서열 다중 정렬'(Multiple Sequence Alignment, MSA)라고 부른다.
1990년대 중반 이후, 단백질 2차 구조를 예측하려던 연구자들은 하나의 아미노산 서열을 이용하여 구조를 예측하는 것보다는 일단 예측하려는 단백질의 유사 서열을 모두 모아서 MSA를 이용하여 예측하는 것이 보다 효과적으로 2차 구조를 예측할 수 있다는 것을 알게 되었다.[5-7] 왜 하나의 단백질의 아미노산 서열을 이용하는 것보다는 유사한 서열을 모은 총합인 MSA를 이용하는 것이 2차 구조의 예측에 유리할까?
우리가 예측하려는 특정한 단백질에서 100번째 아미노산이 이소류신(Isoleucine), 다음의 101번째 아미노산이 발린(Valine)이라고 하자. 만약 우리가 단 하나의 아미노산 서열만 가지고 있다면, 단백질의 이 위치에 이소류신이나 발린처럼 물을 싫어하는 아미노산이 반드시 들어가야만 하는지에 대한 확신이 없을 것이다. 그러나 만약 100개의 서열이 비슷한 단백질을 MSA 만들고 이 위치에 해당하는 아미노산을 찾아보았더니 100개의 서열이 모두 이소류신, 발린, 타이로신 등으로 되어 있다면 단백질의 진화 과정에서 이 위치에 항상 물을 싫어하는 아미노산이 존재한다면, 이것은 이 단백질의 기능에 있어서 이 위치에 이러한 아미노산이 반드시 있어야 하는 어떤 이유가 있다는 이야기이며, 단백질의 구조에서 중요한 역할을 하고 있다는 이야기일 것이다. 만약 이 부분에 베타시트에 많이 존재하는 아미노산이 다른 단백질에도 공통적으로 존재하고 있다면, 이 부분을 베타시트로 예측하는 근거는 더욱 높아질 것이다.
그러나 100개의 서열에 이소류신, 발린, 타이로신 뿐만 아니라 글리신, 프롤린, 글루탐산 등의 여러가지 아미노산이 존재한다면 어떻게 될까? 베타시트나 알파 나선 이외에도 이의 형성을 방해하는 아미노산들이 다양하게 분포하고 있으므로, 만약 100개의 단백질이 구조가 보존되어 있다면, 이 부분은 알파 나선이나 베타시트가 아닌 루프로 존재할 가능성이 높을 것이다.
1990년대 후반부터 등장한 단백질 2차 구조 예측 방법들은 대개 이런 식의 과정을 거친다. ①주어진 단백질을 단백질 아미노산 서열 데이터베이스에서 검색하여 서열이 비슷한 단백질들을 골라낸다. ②검색된 유사 서열을 이용하여 MSA를 만든다. ③MSA를 기반으로 수치화한 프로파일(Profile)을 만든다. 프로파일은 특정한 위치의 아미노산이 어떤 빈도로 존재하는지를 표시하는 일종의 행렬 형식의 데이터다. ④이 프로파일을 이용하여 서열 검색을 다시 수행한다. 하나의 서열을 가지고 데이터베이스를 검색할 때보다 MSA에 기반한 프로파일을 이용하여 서열을 검색하면 원래 서열과 유사성이 약해서 잘 검색이 되지 않을 서열도 쉽게 찾아낼 수 있다. 이렇게 구축된 더 많은 서열을 이용하여 MSA를 만들고 이를 프로파일로 변환한다. ⑤서열 길이 20개 아미노산으로 구성된 프로파일을 15개 아미노산 단위로 *인공 신경망 네트워크(Artificial Neural Network) 에 넣어, 해당 위치의 단백질 2차 구조를 예측한다. 신경망 네트워크의 파라메터는 이미 알려져 있는 단백질 아미노산 서열과 이의 2차 구조를 이용하여 학습하게 된다.
*인공 신경망 네트워크란?
뇌 속에서는 복수의 뉴런으로부터 신호를 받아 이를 통합하여 복수의 뉴런으로 신호를 보내며 이는 뇌 속에서 일어나는 정보 처리의 기본이 된다. 인공 신경망은 이러한 뉴런의 연결구조를 모방한 계산기법으로써, 여러 개의 신호를 받아들이는 입력층(Input Layer)과 입력층으로 입력받는 결과를 계산하는 은닉층(Hiden Layer), 그리고 최총 출력신호를 내보내는 출력층(output Layer)로 나뉜다. 가령 아미노산 서열을 이용하여 단백질 2차 구조를 예측하려고 한다면, 단백질 서열에 의해서 만들어진 MSA에서 각각의 아미노산에 해당하는 프로파일이 입력층으로 들어가게 되며, 출력층에서는 각각의 아미노산에 해당하는 2차 구조(알파나선, 베타시트, 루프)의 결과가 출력되어 나온다. 실제로 입력층으로 받아들인 결과를 계산하는 은닉층은 복수의 층이 존재할 수 있으며, 이러한 은닉층의 갯수가 늘어난 인공 신경망 네트워크를 요즘은 '딥 러닝 네트워크'(Deep Learning Network)라고 부른다. 이러한 인공 신경망 네트워크는 입력값(우리의 예에서는 단백질 아미노산 서열)과 결과값(단백질 2차 구조)을 이용하여 네트워크를 '훈련'시키게 되며, 이렇게 훈련된 네트워크를 이용하여 입력값을 이용하여 결과값을 예측하게 된다.
아미노산 서열이 비슷한 단백질을 모아서 MSA를 만들고, 이 데이터를 입력값을 통하여 인공 신경망 네트워크를 이용하여 2차 구조를 예측하는 방법에 의해서 단백질의 2차 구조 예측의 정확도는 기존의 방법에 비해서 훨씬 올라갔다. 기존의 2차 구조 예측법에서 약 50-60% 정도의 정확도를 보였다면, MSA와 인공 신경망을 이용한 단백질 2차 구조 예측에서는 70% 중반에서 80% 정도의 정확도로 2차 구조를 예측할 수 있었다. 한마디로 100개의 아미노산으로 구성된 단백질의 2차 구조를 예측하면 약 80개의 아미노산에 대해서는 이 아미노산이 알파 나선, 베타시트, 루프로 존재하는지를 정확히 예측한다는 것이다. 2000년대 중반에 이르러 PSIPRED, Jpred 등과 같은 2차 구조 예측을 위한 소프트웨어들이 등장하였고, 아미노산 서열으로부터 누구나 손쉽게 단백질의 2차 구조를 예측할 수 있게 되었다.
구조를 예측할 단백질과 비슷한 아미노산 서열을 가진 단백질을 찾아 단백질의 진화 정보를 구조 예측에 사용한 것, 그리고 인공 신경망 네트워크와 같은 인공지능/기계학습 이론을 단백질 2차 구조 예측에 사용함으로써 예측의 성능이 비약적으로 올라가게 된 것은 이후의 단백질 3차 구조 예측에도 중요한 영향을 주었다. 알파폴드 2로 비롯되는 최근의 단백질 3차 구조의 성공적인 예측의 동력이 단백질의 진화 정보로부터 단백질의 구조 정보를 유추해 내는 것, 그리고 인공지능 방법론의 활용이었음을 생각하면 단백질 2차 구조의 예측의 발전 과정은 이후의 연재에서 소개할 단백질 3차 구조의 예측에서도 그대로 적용되었다.
그러나 단백질의 2차 구조를 예측할 수 있게 된 것은 구조 예측의 시작에 불과하였다. 즉, 단백질을 구성하고 있는 아미노산의 어떤 부분이 알파 나선, 베타시트, 루프로 되어 있는 것을 아는 것은 단백질의 구조에 대한 일부 정보만을 제공할 뿐이다. 즉, 이렇게 2차 구조를 형성한 단백질이 실제로 3차원적으로 어떤 모양으로 접혀있는지를 예측하는 것은 훨씬 더 어려운 문제였다. 다음 연재에서는 단백질의 3차원 구조를 예측하려는 시도가 2010년대까지 어떻게 진행되었는지에 대한 과정을 알아보고자 한다.
참고문헌
1. Pauling, L., Corey, R. B., & Branson, H. R. (1951). The structure of proteins: two hydrogen-bonded helical configurations of the polypeptide chain. Proceedings of the National Academy of Sciences, 37(4), 205-211.
2. Pauling, L., & Corey, R. B. (1951). The pleated sheet, a new layer configuration of polypeptide chains. Proceedings of the National Academy of Sciences of the United States of America, 37(5), 251.
3. Chou, P. Y., & Fasman, G. D. (1974). Prediction of protein conformation. Biochemistry, 13(2), 222-245.
4. Garnier, J., Osguthorpe, D. J., & Robson, B. (1978). Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. Journal of molecular biology, 120(1), 97-120.
5. Rost, B., & Sander, C. (1993). Prediction of protein secondary structure at better than 70% accuracy. Journal of molecular biology, 232(2), 584-599.
6. Jones, D. T. (1999). Protein secondary structure prediction based on position-specific scoring matrices. Journal of molecular biology, 292(2), 195-202.
7. Cuff, J. A., Clamp, M. E., Siddiqui, A. S., Finlay, M., & Barton, G. J. (1998). JPred: a consensus secondary structure prediction server. Bioinformatics (Oxford, England), 14(10), 892-893.