앤스로픽 ‘클로드 오퍼스 4.5’ 발표
코드 생성 및 자율 컴퓨팅, “모든 에이전트 워크플로우에서 강력 성능” 벤치마크 ‘SWE-Bench Verified’에서 80.9% ‘최고 점수’
[애플경제 이윤순 기자] 앤스로픽(Anthropic)이 새로운 AI 코딩 모델 ‘클로드 오퍼스 4.5’ (Claude Opus 4.5)를 발표했다. 이런 프런티어 모델은 에이전트 도구의 활용이나, 사이버 공격에 대한 복원력 측면에서 획기적인 진전을 이뤘다는 평가다.
이는 앤스로픽 모델 중 최첨단 시스템으로 AI 코드 생성 분야의 새로운 장을 열었다는 설명이다. “코드 생성 및 자율 컴퓨터 사용을 포함한 모든 에이전트 워크플로우에서 강력한 경쟁력을 발휘한다”는 주장이다.
오퍼스 4.5는 실제로 벤치마크 ‘SWE-Bench Verified’에서 80.9%의 점수를 기록하며 코드 생성을 위한 최첨단 모델로서의 입지를 굳혔다. SWE-Bench Verified는 AI 모델의 에이전트 코딩 역량을 테스트하는 가장 엄격한 테스트 중 하나로 꼽힌다. 해당 벤치마크 테스트에선 오픈 소스 깃허브 저장소에서 가져온 실제 코딩 문제가 제시된다.
이에 비해 GPT-5.1 코덱스 맥스(Codex Max)는 77.9%, 구글의 최신 프론티어 모델인 제미니 3 Pro는 76.2%를 기록했다. 지금까진 클로드 소넷 4.5 다양한 프로그래밍 언어에서 코드 생성에 가장 적합한 AI 모델로 널리 인정받아 왔다.
이들에 비해 오퍼스 4.5는 뛰어난 성능 외에도 개발자가 문제에 접근하는 과정에서 많은 선택지를 제공하는 것으로 나타났다. 클로드 API를 통해 개발자는 새로운 ‘노력’ 매개변수를 사용, 특정 작업에 사용할 토큰 수를 결정할 수 있다. 이는 출력에 걸리는 시간과 비용을 절감할 수 있게 한다.
테스트 결과, ‘중간’으로 설정된 오퍼스4.5 역시 SWE-bench Verified에서 클로드 소넷 4.5 점수와 동일한 수준을 유지하면서도 출력 토큰을 76% 더 적게 사용했다.
앤스로픽은 코딩 기능 외에도 다양한 엔터프라이즈 작업을 효율적으로 개선하는 Opus 4.5이 성능을 강조했다. 예를 들어 복잡한 정보 검색, 에이전트 도구 사용, 심층 분석, 그리고 엑셀 자동화 지원 등이다. 에이전트 도구 사용 벤치마크에서 오퍼스 4.5는 경쟁 모델보다 지속적으로 우수한 성능을 보였다.
앤스로픽은 “엑셀 자동화 초기 테스트에서 고객들이 정확도 20%, 효율성 15% 향상을 측정했다”고 밝혔다. 앤스로픽은 또 “이러한 실질적인 개선 사항을 ‘클로드’ 모델군이 코드 생성 기능뿐 아니라, 다양한 엔터프라이즈 작업에 강력한 선택이 되었음을 보여주는 신호”라고 강조했다.
오퍼스 4.5 출시를 통해 앤스로픽은 클로드 제품군의 3가지 모델이 개발 라이프사이클에서 각기 다른 역할을 수행할 것으로 예상한다. 오퍼스 4.5는 핵심 에이전트 작업 및 프로덕션 코드에 적합한 모델로, “고도의 정교함과 정확성에 중점을 두고 있다”는 평가다.
즉, 소넷 4.5는 대규모 에이전트, 특히 고객 대면 에이전트와 반복 개발을 위한 저지연 코드 생성에 적합한 모델이다. 하이쿠(Haiku) 4.5는 클로드 무료 티어를 이용하려는 기업과 하위 에이전트를 위한 모델이다.
앤스로픽은 하위 에이전트를 “특정 사전 정의된 작업을 수행하는 에이전트”로 정의하고 있다. 이러한 에이전트는 프런티어 모델 없이도 작업을 수행할 수 있다. 컴퓨터 사용 기능을 확장한 ‘오퍼스 4.5’는 새로운 크롬 확장 프로그램인 ‘Claude for Chrome’을 통해 제공될 예정이다. 이를 통해 ‘맥스’ 구독자는 클로드가 브라우저에서 다양한 작업을 수행하도록 할 수 있다. 그래서 “클로드 오퍼스 4.5는 AI 에이전트의 자기 개선에 있어 획기적인 진전을 보여준 것”이란 평가다.
“사무 업무 자동화를 위해 저희 에이전트들은 자체 역량을 자율적으로 개선, 4번의 반복 작업만으로 최고 성능을 달성했는데, 다른 모델들은 10번의 반복 작업 후에도 그 품질을 따라잡지 못했다”는 앤스로픽의 자랑이다. 또한, “여러 기술 작업에서 경험을 통해 학습하고, 이전 작업에서 얻은 통찰력을 저장, 새로운 과제에 적용하는 능력을 보여주었다.”고도 강조했다.
오퍼스 4.5는 또 추론 모델을 대상으로 한 일반적인 신속한 주입 공격을 방어할 수 있도록 설계되었다. 시뮬레이션된 공격자가 “매우 강력한” 신속한 주입 공격을 100번 실행했을 때, 오퍼스 4.5 ‘씽킹’에 대한 성공률은 63%였다. GPT-5.1 ‘씽킹’은 87.8%, 제미니 3 Pro ‘씽킹’은 92%였다. 또한 공격을 단 한 번만 실행했을 때, 공격 성공률은 4.7%에 불과했으며, GPT-5.1 ‘씽킹’은 12.6%, 제미니 3 Pro는 12.5%였다.