남궁석 SLMS(Secret Lab of Mad Scientist) 대표
지난 연재에서 소개한 것처럼 2010년 정도까지 단백질의 3차구조 예측, 특히 예측하려는 단백질과 서열이 유사한 단백질의 구조가 알려지지 않은 상태에서 예측하는 방법은 그다지 발전이 없었다. 수십년의 노력에도 불구하고 단백질 구조를 예측하려는 시도에서 뚜렷한 성과가 없다보니, 단백질 구조 예측이 세기의 난제라는 인식 역시 확고해졌다. 그러나 이러한 상황은 2010년 이후 서서히 변화하기 시작하였다. 그 원동력이 된 것은 바로 단백질의 진화 정보였다. 그렇다면 어떻게 이러한 진화 정보가 단백질의 구조 예측에 사용될 수 있었을까?
단백질 진화 정보의 축적
이미 단백질의 2차구조 예측에서 구조를 예측하려는 서열과 유사한 단백질의 서열 정보를 모아 서열다중정렬(Multiple Sequence Alignment)을 만들고 이를 단백질 2차구조 예측에 이용하면 단순히 하나의 단백질 서열을 이용하는 것보다 훨씬 예측 정확도가 높아진다는 언급을 지난 연재에서 했었다. 즉, 구조가 거의 일치하는 단백질의 서열을 모아놓은 서열다중정렬 속에는 단백질 구조의 정보가 숨어있는 것이다.
서열다중정렬을 이용하여 단백질 2차구조 예측을 처음 시도하려던 1990년대 중반에 비해서 2010년 이후에는 이용할 수 있는 단백질의 서열 정보가 급격히 늘어났다. 2000년대 초 휴먼 게놈 프로젝트의 완성이후 급속히 발전한 염기서열 결정 기술로 인하여, 사람 뿐만 아니라 지구상에 있는 거의 모든 생물의 DNA 서열이 결정되었고, DNA 서열의 결정에 의해서 이로부터 쉽게 유추할 수 있는 단백질 서열의 정보도 폭증하였다. 거의 모든 단백질에 대해서 이 단백질이 서로 다른 생물에서는 어떻게 서열이 변했는지의 정보를 매우 손쉽게 얻을 수 있게 되었다는 것이다.
이렇게 늘어난 단백질의 서열 정보가 어떻게 단백질 구조를 예측하는데 도움이 될 수 있게 될까? 늘어난 서열 정보 덕분에 기존에 겨우 10-20개의 유사 서열만으로 만들 수 있었던 서열 다중정렬을 수백개에서 수천개에 달하는 서열로 만들 수 있게 되었고, 이렇게 만들어진 서열다중정렬을 분석하던 연구자들은, 이러한 서열 다중정렬 내에 그동안 간과하던 단백질 구조에 관련된 중요한 정보가 숨어 있음을 발견하였다.... <계속>