메타, 대규모 ‘라마 4 비히머스’ 모델, 계속 출시 연기
“더 이상의 성능 개선 여지 없는 기술적 ‘특이점’ 탓” 해석
오픈AI, 기존 모델 ‘o3’ 응용, 코딩 AI에이전트 ‘코덱스’ 출시
새 모델 개발, 개선 한계, ‘기존 기술 영역 특화 솔루션’ 개발
[애플경제 김홍기 기자] 메타가 지난 4월 출시하기로 한 차기 대규모 AI ‘라마4 비히머스’(Llama 4 Behemoth)를 매월 한 차례씩 연거푸 연기한 끝에 결국 가을로 미뤘다. 이를 두고 메타는 ‘성능 보완’이나 ‘개선’ 등 몇가지 이유를 대고 있다. 그러나 한켠에선 AI 성능을 더 이상 향상시키는게 갈수록 힘들어지는 AI기술의 정점, 즉 ‘AI 기술 특이점(Singularity)’에 가까운 탓이 아니냐는 의구심이 제기되고 있다.
거의 같은 시기에 오픈AI는 마치 가상의 ‘동료’나 ‘조수’처럼 코드를 작성하고, 테스트와 수정도 하는 AI 코딩 어시스턴트인 코덱스(Codex)를 출시했다. 우선 챗GPT 프로나 팀 사용자들부터 이를 사용할 수 있다. 이는 기본 AI모델을 특화된 용도로 응용한 솔루션인 셈이다.
두 회사의 같고도 다른 움직임의 ‘함의’
이에 대해 공교롭게도 두 회사가 각기 다르면서도 같은 함의를 던지고 있다는 분석이다. 대형 기본 언어모델인 ‘라마 4 비히머스’가 연기된 것은 기술 향상의 한계를 보여줬다면, 오픈AI의 ‘코덱스’는 기본이 되는 AI모델의 하위 개념인 특화된 AI솔루션이다.
이같은 두 회사의 엇갈린 행보를 두고, “메타와 오픈AI와 같은 기업들이 최근 몇 년간의 빠른 제품 출시 속도를 더 이상 유지하기 어려워질 수 있다는 조짐”이라는 해석이 나온다. 실제로 오픈AI의 GPT도 점점 업그레이드 주기가 길어지는 등 전보다는 ‘속도’가 느려진 것으로 비춰지기도 한다.
클로드 소네트, GPT 4 시리즈, 구글 제미니 2.0 시리즈 등도 상황은 비슷하다. 이를 두고 일각에선 기술 개발이 지속되면서, 마침내 더 이상 향상이나 개발, 개선이 불가능한 기술적 한계점인 ‘특이점’이 가까운 것이 아니냐는 해석이 설득력을 얻고 있다.
애초 ‘라마 4 비히머스’는 2,880억 개의 활성 매개변수를 가진 생성 AI 모델로서, 다른 모델을 학습시킬 수 있다. 메타는 “세계에서 가장 스마트한 LLM 중 하나이며, 새로운 모델을 위한 가장 강력한 학습 도구”라며 “최신 플래그십 모델인 ‘라마 4’의 가장 큰 버전이 될 것”이라고 소개했다.
그러면서 “여러 벤치마크에서 오픈AI의 GPT-4.5나, 앤트로픽의 클로드 소네트 3.7, 구글의 제미니 2.0 Pro보다 우수한 성능을 보였다”고 자랑했다. 또 “이미 ‘비히머스’를 통해 소규모 ‘라마 4’ 모델인 스카웃(Scout)과 매브릭(Maverick)을 학습시켰다”면서 “오픈AI, 구글, 앤트로픽, xAI 등과 경쟁하고 있다”고 생성 AI 시장에서 여러 기업들과 경쟁하고 있다“고 했다.
메타 내부 ‘비히머스, 더 이상 성능개선 불가’ 의구심
그러나 지난 4월에 출시될 예정이었던 이 모델은 가을로 연기되었다. 원래 4월 메티의 ‘AI 개발자 컨퍼런스’에서 공개할 계획이었다. 그러나 6월로 연기되었고, 그 후 다시 가을로 출시가 미뤄진 것이다. ‘월스트리트 저널’ 등에 따르면 메타 내부 구성원들 사이에서도 ‘비히머스’가 공개적인 출시를 통해 기술을 인정받을 만큼, 이전 버전보다 성능이 개선되기 힘들 것이란 의구심이 분출하고 있다. 그런 가운데 경영진은 “‘라마 4’ 팀이 충분한 (기술과 성능의) 진전을 이루지 못했다”고 질책하고 있는 것으로 전해졌다.
이러한 내부적인 혼란은 생성 AI 발전의 속도와 비용에 대한 의구심을 반영한 셈이다. 이는 비단 메타뿐 아니다. AI 업계 전반에 걸쳐 이런 광범위한 의문과 회의가 확산되고 있다. 일부 전문가들은 “기술적으로 향상된 성과가 실현되려면 엄청난 비용이 드는 반면, 개발 주기나 속도는 전보다 길어지거나 느려질 것”이라고도 한다
뉴욕대학교 데이터 과학 센터의 조교수인 라비드 슈워츠-지브가 ‘WSJ’에 토로한 것도 같은 맥락이다. 즉 “현재 모든 빅테크의 연구실과, 그들이 개발하고 있는 AI모델의 성능 개선 속도는 매우 미미한 수준이며, 전반적인 AI의 발전은 무척 더디게 이뤄지고 있다”는 것이다.
이는 다시 말해 기술적 ‘특이점’을 시사하는 발언이다. 즉 대규모 생성 AI 모델이 그 (더 이상 끌어올릴 수 있는) 성능의 정점에 가까워진 것이 모델 출시 연기의 배경이란 뜻이기도 하다.
그렇다보니 오픈AI의 ‘코덱스’는 기본 AI 모델 개선이나 개발보단, 특화된 용도로 응용한 대표적인 솔루션 사례로 주목받고 있다. 이는 코드 작성, 버그 수정, 테스트 작성에 매우 유용한 도구다. 즉 “개발자가 코드를 더욱 효율적으로 작성하고 관리할 수 있도록 설계된 새로운 AI 에이전트”라는 설명이다.
코덱스, ‘작성, 버그 수정, 검토 위한 풀 리퀘스트’ 등
자사의 기존 ‘o3’ 모델을 SW 엔지니어링 작업에 특화, 개발한 codex-1 기반의 에이전트다. 새로운 기능 작성부터 버그 수정, 검토를 위한 풀 리퀘스트 제출까지 여러 코딩 작업을 동시에 처리할 수 있다. 기본 모델을 새로 개발하기보단, 기존의 ‘o3’ 모델을 다양하게 개선, 적용한 대표적인 사례로 꼽을 수 있다.
이에 ‘코덱스’는 기존 챗GPT 내부에 있으며 간단한 사이드바를 통해 접속할 수 있다. 개발자는 프롬프트를 통해 작업을 할당하고, ‘코드’(새 코드 생성) 또는 ‘질문’(코드베이스에 대한 답변을 받음)을 선택한다. 작업은 개발자의 코드베이스가 미리 로드된 안전한 클라우드 샌드박스에서 실행된다. 작업은 복잡한 정도에 따라 차이가 있지만, 대체로 1분에서 30분까지 소요된다. 작업이 완료되면 코덱스는 터미널 출력 및 테스트 결과를 포함, 모든 작업 결과를 기록, 사용자가 작업 내용을 확인할 수 있도록 한다.
오픈AI는 또 블로그를 통해 “코덱스는 악성 SW 개발을 목표로 하는 프롬프트를 식별하고 단호하게 거부하며, 합법적인 작업을 명확하게 구분, 지원하도록 훈련되었다.”고 밝혔다.
아직 프리뷰 단계인 만큼 ‘프런트엔드’ 작업 과정에선 이미지를 입력하지 않으며, 실시간 작업 중단 기능도 없다. 또한 코덱스를 통해 작업을 하다보면, 대화형 작업보다 시간이 더 오래 걸릴 수 있다.
이에 오픈AI는 “향후 버전에는 더욱 다양한 대화형 워크플로, 작업 중 안내, 이슈 트래커 및 CI 시스템과 같은 도구와의 긴밀한 통합 기능이 포함될 것”이라고 밝혔다. 기술적 ‘특이점’에 가까울수록 택할 만한 차선책을 오픈AI가 ‘코덱스’를 통해 보여준 셈이다.
