오래 전 구축된 AI모델에 알츠하이머·치매 식별 ‘MoCA’ 검사
챗GPT 4, GPT-4o, 클로드 3.5 ‘Sonne’, 제미니1과 1.5 등
‘주의력, 언어 능력, 기억력, 공간 능력, 실행 기능’ 등 테스트
대부분 AI모델 오답 많아, ‘제미니1’이 가장 저조, “인간 치매와 유사”
[애플경제 이윤순 기자] 인간처럼 AI도 시간이 갈수록 늙어간다? 실제로 AI모델이나 LLM도 시간과 세월이 흐를수록 ‘인지 능력’이 저하되는 것으로 전해졌다. 더욱이 AI를 대상으로 인간을 위한 ‘치매’ 검사에서도 이런 결과가 나타나 눈길을 모은다.
최근 연구 결과에 의하면 비록 기계적 원리이긴 하지만, 인간의 뇌 구조를 본떠서 만든 만큼, AI도 나이가 들면서 이처럼 인지 저하를 경험한다. 인간만이 나이가 들면서 인지 저하를 경험하는 것은 아니란 얘기다.
실제로 신경과 의사와 데이터 과학자가 수행한 연구에 따르면 일부 AI모델은 나이가 들면서 시각적, 공간적 작업과 실행에 어려움을 겪는다. 그 결과 애초 처음 구축했던 당시의 전성기에 비해 작업 성과가 크게 떨어지는 것으로 나타났다. 마치 사람이 나이가 들면 비즈니스는 물론 사회생활과 일상적 행위가 힘들어지는 것과 흡사하다는 분석이다.
“오래되고 낡은 기계·장비와 마찬가지”
2024년 12월호 의학 저널 ‘The BMJ’에 게재된 이 연구는 5가지 주요 대규모 언어 모델(LLM)인 챗GPT 4, GPT-4o, 클로드 3.5 ‘Sonne’, 제미니1과 1.5를 조사한 결과다. 해당 연구는 날로 현대 문명이 AI에 더 의존하고 있는 현실에서 짐짓 충격적으로 받아들일 수 도 있다.
이에 기술매체 익스트림테크는 “물리적 기계가 기기, 장비 등은 당연히 오래될수록 낡고 기능이 퇴화해서 마침내는 폐기 내지 교체된다. 그러나 기계학습과 빅데이터 기술 등에 의한 추론 장치로서 AI도 그처럼 시간에 비례해 ‘노쇠’할 것이라곤 미처 예상하지 못했다.”고 충격을 감추지 못했다. 또 “새삼 생각해보면 AI는 결국 인간의 ‘정신’과 ‘마음’을 보완할 수는 있지만, 그 안에 내장된 ‘뇌’는 시간이 흐를수록 최상의 상태가 아닐 것”이라고 해석했다.
이에 따르면 이번 연구는 AI모델을 테스트하기 위해 소위 ‘몬트리올 인지 평가(MoCA)’ 기법을 적용했다. 이는 신경과 전문의가 알츠하이머병이나 치매의 정도나 영향을 평가하는데 사용되는 기법이다. 이를 통해 인간의 주의력, 언어 능력, 기억력, 공간 능력 및 실행 기능을 평가하는 것이다. MoCA에는 일련의 짧은 단어 암기를 비롯, 시계 바늘을 특정 시간으로 그리기, 주어진 문자로 시작하는 단어 생성 등과 같은 다채로운 문항과 과제가 포함되어 있다. 사실상 기계를 대상으로 인간과 똑같은 ‘치매’ 식별 검사를 한 셈이다.
12개 문항, ‘GPT-4o, 제미니 1.5’는 9개 맞혀
물론 이 정도 문항들은 만약 LLM이 탈옥 시도를 따돌리고, 사람들이 대화형 구직 면접을 준비하도록 돕는 데 익숙한 수준의 모델이라면 전혀 어려울 게 없다. 그러나 이번 연구에서 일부 AI모델은 MoCA 테스트에 큰 어려움을 겪었다. 특히 제미니1이 가장 테스트를 어려워했다. 12개의 문항과 과제 중 8개에서 제대로 답을 못했다.
챗GPT 4와 클로드는 그보단 나았지만, 역시 12개 중 4개에 답을 제시하지 못하면서 어려워했다. GPT-4o와 제미니 1.5의 경우는 9개의 과제에 정답을 제시했다. 그러나 모든 LLM이 MoCA의 ‘트레일 메이킹’ 테스트에서 실패했다. ‘트레일 메이킹’은 문자와 숫자 사이에 화살표를 순차적으로 그리도록 요구한 문항이다.
연구자들은 이를 별도의 차트를 통해 그려보임으로써 ‘AI 치매’의 정도를 시각적으로 표시했다. 즉 MoCA 과제에 대한 다양한 LLM의 성과를 보여주는 차트를 별도로 공개한 것이다. 차트에서 진한 빨간색 상자가 많을수록 오류가 더 많음을 나타내고, 회색 상자는 오류가 없음을 나타낸다.
그 결과 오래된 LLM은 이른바 ‘젊은’ 모델 버전보다 인지 점수가 낮았다. 인간 고령자들이 흔히 그렇듯이, 인간 뇌의 신경 퇴행성 과정과 비슷한 인지 저하를 보였다. 이에 해당 연구자들은 “이같은 손상 패턴은 인간의 알츠하이머병의 후부 변이인 후부 피질 위축증 환자와 유사하다”고 ‘의학적’ 소견까지 곁들이기도 했다.
그러나 이같은 ‘The BMJ’에 실린 연구 결과에 대한 반론도 만만찮다. 또 다른 연구자들은 (인간에게만 유효한) MoCA를 AI 평가 도구로 사용한 자체를 비판했다. 이들은 “인간의 인지 테스트를 수행할 수 없다는 이유로 LLM의 성능을 낮춰 보는 것은 마치 잠수함의 공중 부양 능력으로 그 성능을 판단하는 것과 같다”고 주장했다.
‘기계에 MoCA 적용?’ 비판 vs ‘능력 측정은 가능’ 논쟁
이에 해당 연구에 참여한 신경과학자들은 “의료 기술을 통해 AI 도구의 인지 저하의 정도를 테스트함으로써 인간의 작업을 보완하는 능력에 어떤 영향을 미칠지에 특히 관심을 둔 것”이라고 반박함으로써 본격적인 논쟁이 벌어기도 했다.
또한 연구에 참여한 과학자들은 “AI는 이미 광범위한 전문 분야에서 인간을 대신해 이를 수행하고 있다”고 강조했다. 즉 “제미니와 챗GP와 같은 LLM이 인간이 이미 수행하고 있는 작업을 보완하기 위한 것이라면, 구조가 우리와 전혀 닮지 않았더라도 인간처럼 ‘생각’(cognition)할 수 있는 능력 여하는 실제로 이를 통해 측정 가능하다”고 주장했다.
이들 주장에 의하면 특히 의료분야 혹은 의사의 역할과 관련해 이는 중요하다는 얘기다. (의료행위에 필요한) 시각적 추상화와 실행 기능 테스트에서 모든 (오래된) LLM이 하나같이 실패한 결과는 임상 환경에서의 유용성을 방해할 수 있는 약점을 노출한 것이다. 즉 “LLM이 공감을 보이고, 복잡한 시각적 장면을 정확하게 해석할 수 없다는 것은 ‘인간 의사’를 대체하는 데 한계가 있음을 더욱 잘 보여준다”는 것이다.
이런 연구 결과를 바탕으로 해당 연구는 “신경학자가 가까운 시일 내에 대규모 언어 모델로 대체될 가능성은 낮을 뿐만 아니라, 신경학자는 오히려 ‘인지 장애’가 있는 AI모델을 새로운 ‘가상 환자’로 치료해야 할 지도 모른다”고 좀은 비약된 예측을 곁들이기도 했다.
