인공지능(AI)이 50년 만에 처음으로 인간의 실험 결과와 대등한 수준으로 단백질의 3차원 입체 구조를 예측하는 데 성공했다. 단백질은 생명체의 모든 현상을 좌우하는 생체 물질이어서, 앞으로 AI가 코로나 등 질병을 극복하는 데 일대 혁신을 가져올 것으로 전망된다.
영국의 AI 업체인 딥마인드는 지난달 30일(현지 시각) “AI인 알파폴드(Alphafold)가 단백질 구조 예측에서 과학자들이 실험으로 사전에 밝힌 것과 90% 가까이 일치하는 결과를 얻었다”고 밝혔다. 딥마인드는 구글과 같이 알파벳 자회사로, 국내에서 이세돌 9단과 바둑 대국을 벌인 AI 알파고를 개발했다.
단백질 구조 예측 대회인 CASP 조직자인 미국 메릴랜드대의 존 몰트 교수는 이날 “AI가 처음으로 과학 연구에 유용한 수준에 근접한 것”이라고 밝혔다. 국제 학술지 사이언스는 “과학 연구의 게임 판도가 바뀌었다”고 했다.
생명체는 DNA를 구성하는 염기 네 가지가 배치된 순서에 따라 아미노산을 연결한다. 단백질은 아미노산들이 연결된 상태로 접히면서 입체 구조를 형성한 것이다. 과학자들은 1970년대부터 DNA 유전 정보를 해독하고 이를 기반으로 컴퓨터가 단백질 구조를 예측하는 연구를 진행했다.
미국 메릴랜드대의 존 몰트 교수는 1994년 컴퓨터로 단백질 구조를 예측하는 대회인 CASP를 시작했다. 과학자들이 사전에 실험을 통해 확인한 단백질 구조를 100점으로 두고 컴퓨터 예측이 90점 이상을 기록하면 인간과 대등한 능력으로 간주했다.
2016년 대회에서 최고 난이도 과제의 1등은 40점에 그쳤으며, 2018년 첫 출전 한 알파폴드는 이 분야에서 60점을 기록했다. 마침내 올해 성능이 개선된 알파폴드는 최고 난이도 과제에서 87점을 기록했으며, 과제로 제시된 단백질의 3분의 2에서 90점 이상을 기록했다.
단백질은 화학반응의 촉매인 효소에서부터 바이러스와 싸우는 항체, 신호 물질인 호르몬과 인슐린까지 인체 모든 생명 현상에 관여한다. 그 기능은 입체 구조에 좌우된다. 코로나 바이러스가 인체에 감염되는 것도 표면의 스파이크 단백질 구조가 인체 세포 표면의 수용체 단백질에 열쇠와 자물쇠처럼 들어맞기 때문이다.
그렇지만 아미노산 사슬들이 서로 접히면서 3차원 구조를 만드는 과정은 워낙 변수가 많아 유전정보만으로는 입체 구조를 예측하기 어려웠다. 대신 과학자들은 x선으로 단백질 결정 구조를 분석했다.
딥마인드 과학자들은 생명체에서 발견된 단백질 2억여 개 중 구조가 확인된 1만7000여 개의 정보를 알파폴드에 입력했다. AI는 이 정보를 토대로 유전정보와 단백질 입체 구조 사이의 연관 관계를 스스로 파악했다. 실험을 하지 않고도 단백질 구조를 알 수 있는 길이 열린 것이다.
실제로 알파폴드는 10년 동안 밝혀내지 못한 단백질 구조를 30분 만에 풀어냈다. 독일 막스플랑크연구소의 안드레이 루파스 박사는 “앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것”이라고 말했다.