기본적인 곱셈 등도 어려워해, 초등학생 수준도 못미쳐
‘토큰화’ 과정의 ‘청크’로 숫자 간의 관계 파악 못해
“언젠가는 ‘추론’ 능력 개선, 수학 영재 수준 도달” 기대
[애플경제 김예지 기자] 챗GPT를 계산기로 사용해 보면, 초보 수준의 수학 계산도 서투른 점을 발견할 수 있다. 고도의 판단과 추론이 필요한 난제도 해결하는 생성AI임을 생각하면, 이는 의외가 아닐 수 없다. 그러나 사실 챗GPT뿐 아니라, 많은 생성AI 모델이 이처럼 숫자 계산이나 산수에 서투르다.
예를 들어 앤트로픽의 첨단 모델 ‘클로드’는 기본적인 단어 해독에 쩔쩔맬 경우도 있다. 구글의 첨단 ‘제미니’는 이차 방정식이 뭔지조차 이해하지 못한다. 메타의 ‘라마’(Llama)는 간단한 덧셈도 제대로 계산하지 못한다.
클로드, 제미니, 라마 등도 모두 숫자 계산 쩔쩔매
그렇다면 이들 첨단 AI봇들이 수준높은 추론이나 고도의 수학 연산은 어렵잖게 해내면서도 초등학교 수준의 산수에는 걸려 넘어지는 이유는 무엇일까?
이는 ‘토큰화’가 그 원인으로 꼽힌다. 즉, 데이터를 청크로 나누는 과정이 ‘토큰화’다. 예컨대, 영어 단어 ‘fantastic’을 ‘fan’, ‘tas’, ‘tic’ 음절로 나누는 방식이다. 이런 토큰화는 AI가 정보를 밀도 있게 인코딩할 수 있게 하는 것이다. 그러나 정작 토큰화를 수행하는 AI 모델인 토큰화 도구는 숫자가 무엇인지 정확히 알지 못하기 때문에, 숫자 간의 관계를 파괴하는 경우가 많다. 예를 들어, 토크나이저는 숫자 ‘380’은 하나의 토큰으로 취급하지만, ‘381’은 숫자 한 쌍(‘38’과 ‘1’)으로 표현할 수도 있는 것이다.
또한 토큰화 과정 말고도 AI가 기초 수학이나 산수에 약한 이유가 있다. AI 시스템은 통계적 기계다. 많은 예제를 통해 학습한 AI는 해당 예제의 패턴을 학습해 예측한다. 예컨대, 5,7897×1,2832의 곱셈 문제가 주어졌을 때, 많은 곱셈 문제를 보며 학습한 챗GPT는 ‘7’로 끝나는 숫자와 ‘2’로 끝나는 숫자의 곱은 ‘4’로 끝날 것이라고 추론할 가능성이 높다. 하지만 나머지 부분에서는 어려움을 겪는다.
4자리 이상 숫자 곱셈, 정답률 30%
영국 워털루 대학교의 AI 조교수인 덩 윤티안은 이같은 챗GPT의 곱셈 능력을 연구한 결과, 기본 모델인 GPT-4o가 각각 4자리 이상을 포함하는 두 개의 숫자를 넘어서는 곱셈에 어려움을 겪는다는 것을 발견했다. 예를 들어3,459×5,284와 같은 수식이다.
그는“GPT-4o는 여러 숫자 자리의 곱셈에 어려움을 겪고 있으며, 4자리×4자리 문제를 넘어서면 그 정확도가 30% 미만”이라면서 “여러 자리 곱셈은 언어 모델로선 어려운 문제다. 중간 단계에서 실수가 쌓이면 잘못된 최종 결과가 나올 수 있기 때문”이라고 ‘테크크런치’에 밝혔다.
그렇다고 해서 챗GPT가 언제까지나 수학 계산을 피할 수 있을것인가. 아니면 언젠가는 봇이 인간만큼 숫자에 능숙해질 수 있다고 기대할 수 있을까. 이에 대해 대체로 전문가들은 희망적이다. 앞서 덩 윤티안은 최근 챗GPT에 도입된 오픈AI의 최첨단 ‘추론’ 모델인 ‘o1’을 집중 분석했다. 그랬더니 ‘o1’은 문제에 답하기 전에 단계별로 ‘생각’하는 모습을 보였다. 이는 결국 GPT-4o보다 훨씬 성능이 우수했고, 9자리×9자리 곱셈 문제를 절반 정도 정확하게 풀었다. 다만 이는 보통 수학이나 산수 문제를 수동으로 계산하는 것과는 다른 방식을 구사했다. 그래서 “AI모델의 내부적 접근 방식과, 그것이 인간의 추론과 어떻게 다른지를 규명할 필요가 있다”는 얘기다.
결국 곱셈문제를 포함한 일부 유형의 수학 문제도 결국 챗GPT와 유사한 시스템으로 완전히 해결될 수 있을 것이란 기대다. 즉, 잘 알려진 알고리즘, 그리고 이미 GPT-4o에서 ‘o1’로 개선되면서 성능이 향상된 추론 기능 등이 결국은 생성AI를 ‘수포자’가 아닌, ‘수학천재’로 만들 것이란 전망이다.
