최근 연구 “‘기억’ 혹은 암기 능력 삭제해도 ‘추론’ 능력 건재”
기본적 산술 능력, “논리 회로가 아닌 암기 경로에 존재”
유해 텍스트, 개인정보, 저작권 침해 콘텐츠 등 식별, 삭제에 유용
[애플경제 전윤미 기자] AI신경망에서 ‘기억’(암기)을 삭제해도 ‘추론’ 능력을 유지할 수 있는 것으로 나타났다. 즉, 추론과 기억을 따로 분리할 수 있다는 얘기다. 최근 일련의 연구에 의하면 기억을 삭제할 경우엔 산술 능력이 약하거나 사라지고, 추론 능력은 변함없다. 즉 기본적인 산술 능력은 논리 회로가 아닌 기억 경로에 존재한다는 뜻이다.
기억과 추론, 완전히 별개의 신경 경로로 작동
엔지니어가 학습 데이터를 기반으로 GPT-5와 같은 AI 언어 모델을 구축할 때, 최소 두 가지 주요 처리 기능이 나타난다. 즉, ‘암기’(기억)와 ‘추론’이다. 이때 암기 내지 기억은 산수나 계산 능력이며, ‘추론’은 일반적인 원리를 사용, 새로운 문제를 해결하는 것이다.
예를 들어 AI 스타트업 ‘굿파이어’는 “이런 서로 다른 기능들이 모델 아키텍처에서 완전히 별개의 신경 경로를 통해 작동한다”고 최초로 그 원리를 규명, 주목을 끈다.
연구진은 “이런 두 가지의 분리된 현상은 놀라울 정도로 명확하다”고 강조했다. 특히 ‘암기’(기억) 경로를 제거했을 때 AI모델이 학습 데이터를 그대로 암기하는 능력의 97%를 잃어버렸다. 그러나 ‘논리적 추론’ 능력은 (기억 능력이 사라져도) 거의 그대로 유지되었다는 설명이다.
또 다른 연구도 이를 뒷받침한다. 예를 들어, 앨런 AI 연구소(Allen Institute for AI)는 자체 개발한 LLM인 ‘OLMo-7B’ 모델에서 (기억과 추론별) 가중치 구성 요소의 (기억에 중점을 둔) 하위 50%는 암기된 데이터에서 더 높은 활성화를 보인 반면, (추론에 중점을 둔) 상위 10%는 암기되지 않은 ‘일반 텍스트’에서 더 높은 활성화를 보였다.
이러한 방법을 통해 연구진은 “다른 기능은 그대로 유지하면서 암기 기능을 외과적으로 제거할 수 있었다”는 것이다.
앞으로 (기억된) 정보 제거 기술이 더욱 발전할 경우 이는 또 다른 AI의 진화를 기약할 수 있다. AI 기업들로선 저작권이 있는 콘텐츠나, 개인정보, 유해한 기억된 텍스트를 신경망 모델의 변환 작업 수행 능력(추론 능력 등)을 손상시키지 않고도 제거할 수 있을 것이란 기대다.
연구소는 자체 인사이트를 통해 다만 “신경망은 아직 완전히 이해되지 않은 분산 방식으로 정보를 저장하고 있다”면서 이에 “현재로서는 민감한 개인 정보(혹은 유해정보) 등을 완전히 제거하는 것을 보장할 수 없다”고 단서를 달았다. 그럼에도 이는 AI 연구의 새로운 방향으로 나아가는 의미있는 발견이란 평가다.
‘암기’ 회로 제거하면, 수학적 성능 급락
더욱이 눈길을 끄는 것은 ‘산술 연산’은 논리적 ‘추론’보다는, ‘암기’와 동일한 신경 경로를 공유하는 것으로 보인다는 점이다.
즉, ‘암기’ 회로를 제거했을 때, 수학적 성능은 66%로 급락했다. 그러나 논리적 작업은 거의 그대로 유지되었다. “이런 발견은 AI 언어 모델이 외부 도구(학습 데이터 등)를 사용하지 않으면 수학 연산에서 큰 어려움을 겪는 이유를 설명할 수 있다”는 얘기다.
이 경우 AI모델은 마치 ‘곱셈표’는 암기했지만 ‘곱셈의 원리’는 이해하거나 배우지 못한 학생과도 같다. 제한된 암기표에서(를 응용해) 산수를 계산하는 것이 아니라, ‘기억’하려고 시도하고 있다. 예를 들어 현재의 언어 모델은 ‘2+2=4’를 논리(로) 연산(하기)보다는, ‘암기된 사실’처럼 취급(기억)한다는 것을 시사한다.
앨런 AI 연구소는 또 “AI 연구에서 ‘추론’이 ‘인간의 추론 능력’과 반드시 일치하지는 않는 다양한 능력을 포괄한다는 점에 주목할 필요가 있다”고 했다.
즉 ‘기억’을 제거한 후 살아남은 ‘논리적 추론’에는 참·거짓 진술을 평가하고 조건식 규칙을 따르는 것과 같은 작업이 포함된다. 이는 본질적으로 학습된 패턴을 새로운 입력에 적용하는 것이다.
또한 ‘패턴 매칭’(모방, 기억) 능력이 그대로 유지되더라도, 증명이나 새로운 문제 해결은 어려워한다. 즉, 심층적인 ‘수학적 추론’(기억이 아닌)과도 다름을 보여주는 대목이다.
‘기억’과 ‘추론’ 구분하는 ‘손실 환경’ 개념 주목
앞서 ‘굿파이어’ 연구진은 이처럼 신경망에서 ‘기억’과 ‘추론’을 어떻게 구분했는지를 설명하기 위해 이른바 AI의 ‘손실 환경’ 개념을 제시했다. 연구진은 ‘트래킹 AI’에 ‘손실 환경’의 의미를 소개했다. 이는 AI 모델의 내부 설정(혹은 가중치)을 조정할 때, 예측이 얼마나 틀리거나 맞는지를 시각화하는 방법이다.
‘굿파이어’는 이를 설명하기 위해 ‘수백만 개의 다이얼이 있는 복잡한 기계를 튜닝’하는 상황을 가정했다. 이때 ‘손실’은 기계가 저지르는 실수의 개수를 측정한 것이다. ‘손실’이 높으면 오류가 많고, 손실이 낮으면 오류가 적음을 의미한다. ‘지형’(환경)은 가능한 모든 다이얼 설정 조합에 대한 ‘오류율’을 매핑할 수 있을 때 나타나는 모습이다.
AI 모델은 학습 과정에서 이 ‘지형’에서 본질적으로 (오류율이 작은 형태의) ‘내리막길’을 따라 움직인다. 가중치를 조정하며 실수가 가장 적은 지점을 찾는 모습이다. 이는 곧 질문에 대한 답변과 같은 AI 모델 출력 과정을 보여주는 것이다.
연구진은 ‘추론’ 경로를 설명하며 “다양한 입력에 사용되는 공유 메커니즘을 구현하는 방향은 일관되게 더해지고, 평균적으로 높은 곡률을 유지한다”면서 “기억은 ‘특정 사례와 관련된 특이하고 날카로운 방향’으로서 데이터 전체에서 평균적으로 평평하게 나타난다”고 설명했다.
그러나 연구진은 “‘암기’를 제거할 경우 수학 연산과 같은 일부 능력이 왜 그렇게 쉽게 손상되는지 완전히 설명하지 못했다”고 토로했다. 즉 “모델이 실제로 모든 산술 연산을 기억했는지, 아니면 수학이 암기와 유사한 신경 회로를 우연히 사용하는 것인지는 불분명하다”면서 “일부 정교한 기능은 실제로는 복잡한 ‘추론’ 패턴일지라도 탐지 방법에 따라 ‘암기’처럼 보일 수도 있다”고 했다. 즉 어느 대목에선 추론과 기억의 구분이 명확하지 않을 수도 있다는 지적이다.
