실험 결과, 복잡한 유전자 활성 이해와 예측 실패,
‘변경된 유전자가 세포에서 어떤 역할 하는지 파악 못해’
獨 연구진 규명, 생물 조작 ‘합성생물학자’들에겐 큰 충격

합성생물학을 뜻하는 이미지. (출처=클로드ai)
합성생물학을 뜻하는 이미지. (출처=클로드ai)

[애플경제 전윤미 기자] 거의 모든 인간 생활에 AI가 접목되어, 그 기능과 효율성을 높일 것으로 기대된다. 그러나 단 하나 예외가 있다. 바로 생물학이다. 이 분야에선 어떤 AI모델이라도 그다지 효율성을 나타내지 못하고 있다는 연구가 최근 나와 눈길을 끈다. 한 마디로 AI가 아직 생물 내지 생명체의 그 오묘한 원리에 대해선 제대로 이해하지 못하고 있다는 뜻이다.

다시 말하면 이는 장차 AI를 기반으로 발전시켜야 할 합성생물학의 한계를 보여주는 대목이기도 하다.

최근 독일 하이델베르크 대학의 치밀한 연구에서 이같은 결과가 나왔다. 이는 ‘AI 만능론’을 토대로 장차 공상과학에서나 봄직한 ‘호모데우스’(영생 인간)를 꿈꾸었을 법한 합성생물학자들에겐 충격이 아닐 수 없다. 그래선지 과학잡지 ‘네이처’에 실린 연구 결과가 공표된 후 그 세밀한 실험 과정 하나하나가 보도되기도 했다.

그 중 ‘아즈테크니카’는 “특히 유전자 활동에 대한 새로운 연구에선 AI 도구가 그다지 적합하지 않다는 것을 보여준다”며 “일부 AI 도구는 아직 생물학을 이해하지 못하는 것으로 밝혀졌다.”고 나름의 해석을 가했다.

유전자 속성, 생명체 원리엔 무지?

물론 AI가 전혀 생물학 부문과 동떨어져있다는 뜻은 아니다. AI머신러닝 접근법은 플라스틱을 분해하는 효소와, 뱀독을 차단하는 단백질을 설계하는 등 나름의 성과를 거둔 바 있다.그 때문에 역시 방대한 데이터에 AI를 활용하면 대부분의 생물학 분야의 현안과 과제가 해명될 것으로 기대되었다. 생명체의 원리와 유전자의 속성을 잘 이해할 수 있을 것으로 예상됐다. 굳이 복잡한 생체실험이나 동물 연구의 번거로움을 피할 수 있을 것이라고 생각되었다. 하지만 실제 결과는 전혀 달랐다. AI는 그야말로 생물학과 생명체의 원리에 대해 태생적으로 ‘무지’했다.

실제로 생물학은 ‘단백질의 집합’이다. “단백질 구조 그 이상의 많은 것을 포함하고 있다”는게 많은 생물학자들의 지적이다. 더욱이 AI가 생물학의 모든 측면을 두루 효과적으로 처리할 수 있다는 것은 애초 과도한 기대다.

이런 상식적인 선에서 하이델베르크 연구진은 AI의 생물학 이해도를 검출하는 실험에 돌입했다. 우선 다양한 조건에 노출된 세포로부터 유전자의 활성도를 예측할 수 있는 AI SW패키지들을 비교했다. 결론적으로 AI 시스템은 의도적으로 단순화된 예측이면 모를까, 그 이상의 복잡하고 정교한 예측은 불가능했다.

생물학과 생명체는 인간이 미처 알지못한 경지의 복잡합을 지니고 있다. 단지 생물학의 한 측면(플라스틱 분해, 뱀독 해소 수준)에서 효과적인 AI 시스템을 개발했다고 해서 생물학 전반에 걸쳐 효과적이라곤 할 수 없다. 이번 실험은 이런 점을 깨우쳐준 셈이다.

메신저격 RNA 등 유전자 활동을 AI에 학습

연구에 사용된 AI 소프트웨어는 유전자 활동의 변화를 예측하는 것을 목표로 한다. 모든 세포는 인간 유전체에 있는 약 2만 개의 유전자 사본을 가지고 있다. 그러나 모든 유전자가 특정 세포에서 활성화되어 있는 것은 아니다. 여기서 ‘활성’이란 메신저격인 RNA를 생성한다는 것을 의미한다.

어떤 유전자는 필수적인 기능을 수행하며 항상 높은 수준으로 활성화된다. 또 다른 유전자는 신경이나 피부와 같은 특정 세포 유형에서만 활성화된다. 이 외의 유전자는 저산소 환경이나 고온과 같은 특정 조건에서 활성화되기도 한다.

연구진은 지난 수 년 간 다양한 조건에서 특정 세포 유형의 모든 유전자 ‘활성’을 조사하기 위해 많은 연구를 했다.

유전자 칩을 사용, 세포 집단에 존재하는 메신저 RNA를 확인했다. 단일 세포에서 분리한 RNA를 시퀀싱하고 그 데이터를 통해 어떤 유전자가 활성화되어 있는지도 확인했다. 그 결과 유전자의 활성과 다양한 생물학적 환경을 연결하는, 광범위하지만 불완전한 그림을 완성할 수 있었다. 이러한 ‘그림’을 활용, 아직 검증되지 않은 조건에서 유전자 ‘활성’을 예측하는 AI를 훈련시킬 수 있을 것으로 예상했다.

연구진은 이런 종류의 유전자 활성 데이터를 구축했다. 이를 통해 학습된 단일 세포 기초 모델(single-cell foundation model) 세트를 테스트했다. 결국 ‘단일한 세포’들은 이러한 모델이 특정 세포 유형의 개체군 평균이 아닌, 개별 세포에서 얻은 유전자 ‘활성’을 기반으로 학습되었음을 알 수 있었다. 기초 모델은 광범위한 데이터를 기반으로 학습되었지만 특정 작업에 적용하기 전에 추가 학습이 필요함을 의미한다.

이제 남은 과제는 유전자가 변형될 때 유전자 활성이 어떻게 변할 것인지 예측하는 것이다. 개별 유전자가 소실되거나 활성화될 때, 변형되는 ‘유일한’ 메신저 RNA는 해당 유전자에 의해 생성되는 RNA일 수 있습니다. 그러나 일부 유전자는 다른 유전자들을 조절하는 단백질을 암호화하는데, 이 경우 수십 개의 유전자 활성에 변화가 나타날 수 있다. 또 다른 경우에는 유전자의 소실, 또는 활성화가 세포의 대사에 영향을 미쳐 유전자 활성의 광범위한 변화를 초래할 수 있음을 밝혀냈다.

두 개의 유전자가 관련된 경우 상황은 더욱 복잡해진다. 많은 경우, 유전자는 서로 관련 없는 일을 한다. 하나의 유전자 손실로 인한 변화에, 다른 유전자 손실로 인한 변화가 더해지는 단순한 가산 효과를 얻게 된다. 하지만 기능과 기능 사이에 겹치는 부분이 있다면, 일부 유전자의 활성은 증가하고 다른 유전자의 활성은 억제된다. 간혹 예상치 못한 변화도 나타날 수 있다.

이러한 효과를 탐구하기 위해 연구진은 유전자의 활성을 의도적으로 변경한 후, 세포의 모든 RNA를 시퀀싱하여 어떤 종류의 변화가 발생했는지 확인했다. 이 접근법(Perturb-seq라고 함)은 변경된 유전자가 세포에서 어떤 역할을 하는지 파악할 수 있었다. 또한 기초 모델이 다른 유전자의 활성 변화를 예측하도록 훈련될 수 있는지가 중요하다. ‘Perturb-seq’ 접근법은 이를 판단하는 데이터를 제공했다.

AI는 생물학에 대한 이해도가 낮다는 사실이 밝혀졌다.(이미지=BSIP)
AI는 생물학에 대한 이해도가 낮다는 사실이 밝혀졌다.(이미지=BSIP)

실험 결과, “예상했던 것보다 더 큰 실망 안겨”

연구진은 기초 모델을 시작으로 하나 또는 두 개의 유전자를 활성화하는 실험 데이터를 사용하여 추가 학습을 수행했다. 이 학습에는 개별 유전자 활성화 사례 100건과, 2개의 유전자가 활성화된 62건의 데이터가 사용되었다. 그런 다음, AI 패키지에 활성화된 다른 62쌍의 유전자에 대한 결과를 예측하도록 요청했다.

이런 비교를 위해 연구진은 두 가지 매우 간단한 모델을 사용, 예측을 수행했다. 하나는 “항상 아무것도 변하지 않을 것”이라고 예측했고, 다른 하나는 항상 ‘가산 효과’(유전자 A와 B를 활성화하면 A 활성화로 인한 변화와 B 활성화로 인한 변화가 모두 발생함)를 예측했다.

그러나 의외였다. 이 두 모델은 효과가 없었다. 연구진은 “모든 모델의 예측 오차가 가산 기준선보다 상당히 높았다”고 결론지었다. 연구진이 AI 예측의 정확도를 다른 측정값으로 측정했을 때도 결과는 동일했다.

문제의 핵심은 훈련된 기초 모델이 유전자 쌍의 변화가 복잡한 변화 패턴을 만들어내는 시점은 알아낼 수 없다는 사실이다. 즉, 한 유전자의 변화가 다른 유전자의 변화와 시너지 효과를 내는 시점을 예측할 수 없다는 얘기다. 단적으로 유전자의 원리를 이해하지 못한 ‘무지함’을 드러낸 것이다.

연구진은 그 결과 “딥러닝 모델은 시너지 효과를 예측하는 경우가 거의 없었고, 예측이 정확한 경우는 더욱 드물었다.”면서 “유전자 간의 이러한 시너지 효과를 구체적으로 살펴보는 별도의 실험에서, 어떤 모델도 항상 변화를 예측하지 못하는 단순화된 시스템보다 더 나은 결과를 보여주지 못했다.”는 것이다.

연구의 전반적인 결론은 매우 명확했다. 연구진은 “의도적으로 단순화한 기준선은 현실적인 생물학적 복잡성을 표현할 수 없다”면서 “‘세포 상태를 일반화할 수 있는 표현을 제공하고 아직 수행되지 않은 실험의 결과를 예측한다’는 기초 모델의 목표는 달성하기 어렵다”고 결론지었다.

물론 여기서 연구진은 “아직 실현 불가능하다”고 했다. 이 문제를 해결할 수 있는 AI를 개발할 수 없다는 것을 의미하지는 않는 셈이다. 또한 이번 연구가 모든 세포 상태에 적용되는 것도 아니다. 즉, 유전자 활동에만 국한된 것이다. 생물학 전반에 적용되는 것은 더더욱 아니다.

그럼에도 불구하고 현재로선 AI가 생물학에 대해선 매우 이해도가 낮다는 사실이 밝혀졌다. ‘AI 붐’이 산업 전 분야로 확산되고, AI가 무엇이든 적용될 수 있다고 믿는 세상에 보낸 ‘귀중한 경고’이기도 하다. 더욱이 AI에 의한 제2, 제3의 세상을 굼꾸는 일부 합성생물학자들에겐 ‘충격’으로 다가왔다.

저작권자 © 애플경제 무단전재 및 재배포 금지