인공지능(AI)이 50년 넘는 시도 끝에 사상 최초로 유전정보만으로 단백질의 3차원 입체 구조를 정확하게 예측하는 데 성공했다. 단백질은 생명체의 모든 현상을 좌우하는 생체 물질이어서 앞으로 AI가 생명과학과 의학 연구에 일대 혁신을 가져올 것으로 전망된다. 과학자들은 코로나 치료제 개발에도 AI가 결정적인 역할을 할 수 있다고 기대하고 있다.
영국의 AI업체인 딥마인드는 30일(현지 시각) “AI 알파폴드(Alphafold)가 단백질 구조 예측 과제의 3분의 2에서 과학자들이 실험으로 사전에 밝힌 것과 90% 이상 일치하는 결과를 얻었다”고 밝혔다.
딥마인드는 구글과 같이 알파벳 자회사로 국내에서 이세돌 9단과 바둑 대국을 벌인 AI 알파고를 개발했다. 2016년까지는 구글 자회사로 있었다.
단백질 구조 예측 대회인 CASP 조직자인 미국 메릴랜드대의 존 몰트 교수는 이날 “AI가 처음으로 실험에서 유용한 수준에 근접한 것”이라며 “엄청 놀라운 일”이라고 밝혔다.
◇단백질 구조 분석 대회서 인간 수준 입증
존 몰트 교수는 1994년에 컴퓨터로 단백질 구조를 예측하는 대회인 CASP를 시작했다. 과학자들이 사전에 실험을 통해 확인한 단백질 구조를 100점으로 두고 컴퓨터 예측이 90점 이상을 기록하면 실험과 대등한 결과로 간주했다.
2016년 대회에서 최고 난이도 과제의 1등은 40점에 그쳤으며, 2018년 첫 출전한 알파폴드는 이 분야에서 60점을 기록했다. 올해 성능이 개선된 알파폴드는 최고 난이도 과제에서 87점을 기록했으며, 단백질 3분의 2에서 90점 이상을 기록했다.
단백질은 생명현상을 조절하는 효소에서부터 물질 수송과 에너지 생산 등 거의 모든 곳에 관여하며, 그 기능은 단백질의 입체 구조에 좌우된다. 코로나 바이러스가 인체에 감염되는 것도 표면의 스파이크 단백질이 인체 세포 표면의 수용체 단백질에 결합하면서 시작된다.
단백질은 아미노산들이 연결된 형태다. 생명체는 DNA를 구성하는 염기 네 가지가 배치된 순서에 따라 아미노산들의 연결 순서를 결정한다. 과학자들은 DNA 유전정보를 해독하고 이에 기반해 컴퓨터로 단백질 구조를 예측하려고 했지만 반세기 넘는 노력에도 실패했다.
아미노산들이 연결된 사슬이 서로 접히면서 3차원 구조를 만드는 과정은 워낙 변수가 많아 유전정보만으로 예측할 수 없었던 것이다. 대신 과학자들은 단백질 결정에 X선을 쏘고 반사파를 감지해 3차원 구조를 힘들게 확인했다. 결정을 만들기도 어렵고 X선 산란 정보로 구조를 예측하는 것도 쉽지 않는 과정이다.
딥마인드 과학자들은 DNA 유전정보와 이미 실험을 통해 확인된 단백질의 3차원 구조 정보를 AI에게 학습시켰다. AI는 수많은 정보를 토대로 유전정보와 단백질 입체 구조 사이의 연관관계를 스스로 파악했다.
◇10년 동안 못 풀던 단백질 구조, AI가 30분만에 해결
알파폴드는 이미 실제 연구 현장에서 위력을 발휘하고 있다. 독일 막스 플랑크연구소의 안드레이 루파스 박사는 10년 동안 특정 단백질 구조를 알아내지 못했다. 하지만 알파폴드는 반시간 만에 단백질 구조를 알아냈다.
루파스 박사는 이날 영국 과학매체 뉴사이언티스트 인터뷰에서 “앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것”이라며 “의학의 운명을 완전히 바꿀 수 있다”고 말했다.
루파스 박사에 따르면 알파폴드는 이미 올 1월 중국에서 코로나 바이러스의 유전정보를 공개하자마자 단백질 구조를 예측하는 데 성공했다. 앞으로 알파폴드는 고가의 실험을 하지 않고도 기존 치료제 중에 코로나 바이러스의 단백질에 잘 결합하는 약물을 골라낼 수도 있다.
물론 아직은 한계가 있다. 몰트 교수는 “놀라운 결과지만 실패도 있었다”며 “주변 단백질에 영향을 받는 단백질은 구조 분석이 어려웠다”고 밝혔다. 딥마인드는 알파폴드 개선 작업을 계속 진행할 계획이며, 곧 알파폴드의 단백질 구조 예측 능력 논문으로 발표하겠다고 밝혔다.