강화학습으로도 한계…“내년부터 성능 개선 속도 둔화될 수도”
비용 높고 환각 문제 여전…확장성에도 의문 제기
‘질문 후 생각하는 시간’이 새로운 돌파구

(사진:픽사베이)
(사진:픽사베이)

[애플경제 김예지 기자] 인공지능(AI) 모델의 지능을 끌어올려온 ‘추론(reasoning)’ 기술이 성능 향상의 속도에서 한계를 드러내고 있다. 지금까지는 연산 자원을 더 투입하고 문제 해결 능력을 강화하는 방식으로 성능 개선을 꾀해왔지만, 이 방식만으로는 더 이상 의미 있는 진전을 기대하기 어렵다는 분석이다. 이에 따라 AI가 답을 내놓기 전, 스스로 생각할 시간을 갖도록 하는 ‘테스트 타임 컴퓨트(test-time compute)’ 방식이 새로운 돌파구로 주목받고 있다.

성능 향상 한계점…강화학습도 답이 아니다

비영리 AI 연구기관 에포크AI(Epoch AI)는 최근 보고서를 통해, 추론형 AI 모델의 발전 속도가 조만간 둔화될 수 있다고 경고했다. 현재 대부분의 AI 모델은 대규모 데이터를 기반으로 사전 학습을 마친 뒤, 강화학습(RL)을 통해 사고력에 가까운 문제 해결 능력을 덧입히는 구조다. 하지만 강화학습에 투입되는 연산 자원이 계속 증가하고 있음에도, 그만큼의 성능 개선이 나타나지 않는다는 것이 문제로 지적된다.

실제로 OpenAI의 추론 모델 ‘o3’는 이전 세대 모델보다 약 10배 더 많은 연산 자원을 활용해 훈련됐는데, 에포크는 이 대부분이 강화학습에 집중됐을 가능성이 높다고 분석했다. 연구진은 “강화학습만으로는 추론 능력 향상에 한계가 뚜렷하다”며, “지금까지의 방식은 점점 더 많은 비용과 시간을 요구하면서도 효율성이 떨어지고 있다”고 지적했다.

복잡한 문제에 대해 단계적으로 답을 구하는 방식의 추론 모델은, 정확도를 높이는 대신 더 많은 오류도 함께 만들어낸다. 특히 사람 이름이나 사실 기반 질문에 대해 실제와 다른 정보를 사실처럼 제시하는 환각(hallucination) 문제가 지속되고 있다. OpenAI의 내부 테스트에서는 o3 모델이 사람 관련 질문에 대해 약 33%의 비율로 허위 정보를 생성한 것으로 나타났다.

o3모델을 출시한 오픈AI의 챗GPT 화면.(사진:게티 이미지)
o3모델을 출시한 오픈AI의 챗GPT 화면.(사진:게티 이미지)

더 많이 생각하는 AI…‘테스트 타임 컴퓨트’가 대안될까

기존 접근법의 한계가 뚜렷해지자, AI 업계는 '응답 전 사고 시간'이라는 새로운 개념에 주목하고 있다. 바로 ‘테스트 타임 컴퓨트’다. 이 개념은 모델이 질문을 받은 후 즉각적인 응답을 내놓는 것이 아니라, 문제를 스스로 쪼개 여러 단계로 다시 구성하고, 각 단계마다 다양한 접근을 시도해보며 답을 도출하는 방식이다. 일종의 '사고 시간'을 주는 셈이다.

OpenAI는 이 방식을 ‘o1’ 모델부터 적용했다. o1은 단일 질문을 내부적으로 여러 하위 문제로 나눈 뒤, 순차적으로 사고 과정을 밟는다. 인간이 복잡한 문제를 풀 때 사고를 정리하며 단계적으로 접근하는 것과 유사한 원리다. 이 방식은 즉각적인 답변보다 시간이 더 걸리지만, 특히 고난도 문제에서 정확도를 크게 높이는 데 기여하는 것으로 평가된다.

최근 MIT 연구진도 테스트 타임 컴퓨트를 적용한 모델이 기존 방식보다 추론 과제에서 더 우수한 성과를 보였다고 발표했다. AI가 질문에 더 오랜 시간을 투자할수록 정답률이 높아진다는 실험 결과도 이어지고 있다.

기술 전환기 맞은 AI…과제는 ‘속도와 비용’

마이크로소프트의 사티아 나델라 CEO는 최근 “AI 모델을 확장하는 기존 방식은 한계에 도달했다”며, “우리는 이제 모델이 응답하는 과정에서 더 많은 사고를 허용하는 시대에 접어들었다”고 말했다. 벤처캐피털 a16z도 “데이터나 모델 크기에 의존하던 확장 전략은 정점을 지났다”며, 테스트 타임 컴퓨트를 차세대 스케일링 전략으로 평가했다.

하지만 이 방식 역시 완전한 해답은 아니다. 사고 시간이 길어질수록 응답 속도는 느려지고, 연산 비용도 함께 증가한다. AI가 한 가지 문제에 대해 여러 시도를 반복하는 만큼, GPU 자원을 대량으로 소비하게 되는 구조다. 이를 해결하기 위한 방안으로는 병렬 연산 구조나 전용 연산칩 등이 거론되고 있지만, 아직 상용화까지는 넘어야 할 기술적 허들이 많다.

그럼에도 불구하고, AI 업계는 테스트 타임 컴퓨트를 통해 현재의 정체 구간을 넘어설 수 있다는 기대를 걸고 있다. 이제는 모델을 단순히 크게 만드는 것이 아니라, 얼마나 ‘잘 사고하게 만들 것인가’가 새로운 경쟁력으로 떠오르고 있다. AI가 더 지능적인 방향으로 발전하려면, 빠른 연산보다 더 깊은 사고가 필요한 시점이다. 테스트 타임 컴퓨트는 그 변화의 출발점이 될 수 있다.

저작권자 © 애플경제 무단전재 및 재배포 금지