“컴퓨터 프로그램에 노벨상 수상 자격이 주어진다면…”
2020년 12월 1일. ‘이기적 유전자’의 저자이자 저명한 생명과학자인 리처드 도킨스는 자신의 X(옛 트위터)에 짧은 글과 함께 구글의 인공지능(AI) ‘알파폴드’의 성과가 담긴 기사를 인용했다. 단백질 구조를 예측하는 분야에서 AI로 출전한 알파폴드가 인간 과학자들을 제치고 독보적인 성과를 냈다는 내용이 담긴 기사였다. 도킨스의 예상은 적중했다. 올해 노벨 화학상 수상자로는 단백질 구조 예측 분야를 개척한 데이비드 베이커 미국 워싱턴대 교수와 함께 알파폴드를 만든 데미스 허사비스 구글 딥마인드 최고경영자(CEO)와 존 점퍼 수석 연구원에게 돌아갔다.
‘알파고’를 통해 AI의 가능성을 확인한 구글은 단백질 구조 예측 분야에 본격적으로 뛰어들면서 세상을 바꿔 나가고 있다. 비단 구글뿐만이 아니다. 챗GPT를 공개하면서 AI 혁명의 서막을 연 오픈AI를 비롯해 마이크로소프트(MS), 엔비디아 등 여러 빅테크 기업은 너나없이 단백질, 화합물 구조 예측 분야에 뛰어들면서 바이오 시장에서 혁신을 이어가고 있다. 과학기술계에서는 바이오 분야에서 AI의 가능성이 확인된 만큼 향후 빅테크 기업 간 시장 선점 경쟁이 치열해질 것이라는 분석이 나온다.
AI 산업의 핵심에 있다고 해도 과언이 아닌 엔비디아는 지난해 새로운 단백질을 설계하는 AI 프로젝트를 시작한다고 밝힌 데 이어 올해 초 ‘바이오네모(BioNeMo)’ 플랫폼을 공개했다. 바이오네모는 AI를 이용해 신약을 개발하는 가상의 공간이다. 알파폴드와 마찬가지로 생성형 AI 기술을 동원해 과학자들이 새로운 분자와 단백질을 설계하고 이를 기반으로 새로운 신약 후보물질을 찾는 데 초점을 맞추고 있다. 이미 암젠과 같은 거대 생명공학 기업은 물론 에보자인, 인실리코메디신과 같은 신약 개발사가 엔비디아의 플랫폼을 활용하고 있다. 킴벌리 파월 엔비디아 헬스케어 부문 부사장은 “생성형 AI의 혁신적인 힘은 생명과학과 제약산업에 엄청난 가능성을 가져온다”고 말했다.
챗GPT를 개발한 오픈AI가 지원하는 스타트업 ‘차이디스커버리’도 단백질 구조 예측 분야에 뛰어들었다. 지난 9월 오픈AI와 스라이브캐피털로부터 3000만달러의 자금을 유치한 차이디스커버리는 ‘차이-1’이라는 단백질 구조 예측 AI를 공개했는데, 알파폴드보다 성능이 뛰어나다고 주장하고 있다. MS도 지난해 단백질 서열을 기반으로 새로운 단백질을 만드는 ‘에보디프’를 오픈소스로 공개한 바 있다. 최근 메타가 개발한 단백질 구조 예측 AI ‘ESM폴드’는 과학계에 알려지지 않았던 7만여 개의 RNA 바이러스를 발견했다고 밝히기도 했다.
이처럼 빅테크 기업들이 너나없이 바이오 시장에 뛰어드는 이유는 AI가 가진 특성이 신약 개발 과정에서 반드시 필요한 신약 후보물질 탐색에 최적화돼 있기 때문이다.
우리 몸을 구성하는 DNA는 RNA를 거쳐 생명 현상에 필요한 단백질을 만들어낸다. 단백질은 세포의 구성 성분일 뿐 아니라 효소, 호르몬, 항체의 주성분으로 인간이 생명을 유지하는 데 많은 기능을 수행하고 있다. 특히 이 단백질은 신약 개발에 상당히 중요한 역할을 한다. 질병의 원인이 되는 단백질에 결합하는 약물을 설계함으로써 질병을 예방하거나 치료제를 만들 수 있기 때문이다. 이를 위해서는 약물이 만나는 단백질의 구조를 정확히 예측해야 한다. 그런데 이 과정이 상당히 어렵다.
한 종류의 단백질 구조 분석에는 짧게는 수개월에서 길게는 수십 년이 걸린다. 엄청난 연구비와 시간을 투자한다고 해서 결과가 나오는 분야도 아니다. 우리 몸에서 중요한 역할을 하는 단백질 구조를 밝힌 과학자들은 노벨상을 받기도 한다.
바로 이 과정을 AI가 파고들었다. 단백질은 마치 기다란 끈이 말려 있거나 접혀 있는 것처럼 보이는 ‘아미노산’으로 이뤄져 있다. 또한 아미노산은 20개만 존재하는데 인류는 그동안 아미노산의 특징을 파악한 데이터를 보유하고 있다. 여기에 이미 인류가 50년 동안 파악해왔던 단백질 구조 데이터도 있다. 올해 노벨 화학상 수상자인 베이커 교수의 제자인 박한범 한국과학기술연구원(KIST) 선임연구원은 “과학 문제 중 데이터가 많은 분야는 AI가 잘 작동할 수 있다”며 “아미노산과 함께 그동안 인류가 밝혀왔던 단백질의 특징과 같은 데이터가 AI 학습에 큰 도움을 준다”고 설명했다.
또한 AI는 학습한 데이터를 기반으로 새로운 ‘수’를 제시하는 데 탁월하다. 신정규 래블업 대표는 “학습을 마친 AI가 왜 이러한 답을 내놓는지 알 수 없지만 확률적으로, 그리고 합리적으로 가장 나은 제안을 한다”며 “이러한 특징 역시 단백질 예측 분야에 활용되기에 유용하다”고 설명했다.
알파폴드의 아버지로 불리는 허사비스 CEO 역시 이러한 사실을 잘 알고 있었다. 외신 인터뷰에 따르면 허사비스 CEO는 미국 매사추세츠공대(MIT) 박사 과정 시절에 베이커 교수 연구실이 개발한 ‘폴드잇’이라는 게임을 해본 적이 있다. 폴드잇은 가상의 공간에서 단백질을 직접 접어 보면서 안정된 구조를 찾아가는 게임이다. 허사비스는 새로운 구조를 찾아 나가는 과정이 바둑을 둘 때 ‘다음 수’를 내놓는 것과 같다고 생각했다. 허사비스는 바둑 기사들이 다음 수를 놓는 과정과 단백질 구조 예측을 하는 과정이 비슷하다고 판단했고, 알파고가 이세돌 9단을 이긴 뒤 알파폴드팀을 꾸렸다.
그렇게 2018년 단백질 구조 접합을 맞히는 대회에 출전해 1위를 했다. 다만 당시만 해도 2위 팀(베이커 교수팀)과 차이가 크지 않았는데 2020년 알파폴드2를 통해 해당 대회에서 압도적인 성과로 1위를 차지하면서 주목받기 시작했다.
알파폴드2는 ‘어텐션 네트워크’라는 딥러닝 기술을 사용한다. 이는 챗GPT와 같은 거대언어모델(LLM)의 핵심 기술로 꼽힌다. 학습한 데이터 중에서 다음에 올 가장 최적화된 ‘단어’를 찾듯이, 알파폴드2는 학습한 단백질 구조와 아미노산의 특징 중에서 확률적으로 가장 가능성이 큰 아미노산을 찾아낸다. 이러한 AI 기술을 기반으로 알파폴드2는 지구상에 존재하는 2억개의 단백질 중 99%의 구조를 예측했다. 그리고 이를 과학자들이 연구에 활용할 수 있도록 무료로 제공했다. 만약 사람이 이러한 일을 직접 해야만 했다면 수백, 수천 년이 걸렸을 일이다.
현재 많은 기업이 알파폴드2를 이용해 단백질의 구조를 예측하고 이를 신약 개발 등에 활용하고 있다. AI를 활용하면 기존보다 적은 비용으로 더 빠르게 신약 후보물질을 확인할 수 있는 만큼 신약 개발 기간을 줄일 수 있기 때문이다. 보스턴컨설팅그룹의 연구에 따르면 AI 기반으로 신약을 개발하는 기업을 분석한 결과 설계한 신약 후보물질의 임상 1상 성공률은 80~90% 선으로 기존 업계 평균보다 높은 것으로 조사됐다. 딥마인드는 2021년 알파폴드 기반의 약물 연구를 위해 ‘아이소모픽랩’을 만들었는데, 현재 일라이릴리, 노바티스 등 글로벌 제약사와 공동 연구를 이어가고 있다.
박현범 선임연구원은 “AI는 이제 단백질 구조 예측뿐 아니라 새로운 화합물을 예측하고 이를 기반으로 신약을 만드는 등 더 어려운 분야에 조금씩 활용되고 있다”며 “특히 최근 연구 성과를 통해 바이오 시장에서 AI의 가능성이 확인되고 있는 만큼 선점 효과를 위한 빅테크 거대 정보통신 기업 간 경쟁이 심화할 것”으로 내다봤다.