7시간 독립적 실행, 까다로운 오픈소스 리팩토링
‘지속적 성능’도 장점, “GPT-4.1보다 훨씬 뛰어난 성능”
코딩, 연구, 글쓰기, 과학적 경계 넓혀, 개발 작업 최첨단 성능

앤스로픽 로고. (출처=게티이미지)
앤스로픽 로고. (출처=게티이미지)

[애플경제 엄정원 기자] 앤스로픽의 새로운 AI 모델 ‘클로드 오퍼스 4’는 개발자에게 획기적인 변화를 가져올 수 있는 기술로 새삼 주목을 받고 있다. AI코딩이 본격화되면서 이미 전체 코딩 작업의 3분의 1 정도는 AI에 의존한다는 조사 결과도 있다. ‘클로드 오퍼스 4’는 그런 상황에서 “코딩의 경계를 넓히고, 오픈AI의 GPT-4.1보다 훨씬 뛰어난 성능을 제공하며, 7시간 동안 독립적으로 코딩할 수 있다”는 회사측 설명이다.

앤스로픽의 설명대로라면, 이는 그야말로 AI코딩의 ‘끝판왕’으로 ‘클로드 오퍼스 4’가 등극할 수도 있다는 얘기다.

언론도 대체로 '호평'

이는 애초부터 소프트웨어 개발자를 위해 정교하게 만들어졌다. 실제로 언론의 호평도 잇따르고 있다. 테크스토리, 아즈테크니카 등은 “‘클로드 소네트 4’와 함께 공개된 ‘클로드 오퍼스 4’는 코딩의 새로운 기준을 제시하며, 지금까지 출시된 모델 중 가장 강력한 모델”이라고 인정했다.

이들 매체의 평가에 따르면, 이는 소프트웨어 개발자와 엔지니어를 위해 특별히 설계되었으며, ‘코딩이나 복잡한 문제 해결’에 탁월하다. 앤스로픽은 “소프트웨어 엔지니어링 작업 벤치마킹에 사용되는 SWE-bench에서 72.5%의 점수를 획득했다”면서 “특히, 동일한 테스트에서 54.6%를 기록한 오픈AI의 GPT-4.1보다 훨씬 뛰어난 성능을 보여준다.”고 밝혔다.

앞서 오픈AI도 소프트웨어 개발자들을 겨냥, GPT-4.1 출시를 발표했다. 이 모델도 출시 당시 벤치마크 21.4%를 기록했던 GPT-4o에 비하면 상당히 개선된 것이다. 그럼에도 불구하고 이번 앤스로픽엔 미치지 못한다는 평가다.

앤스로픽은 블로그를 통해서도 한껏 이를 자랑했다. “‘오퍼스 4’는 코딩은 물론, 연구, 글쓰기, 과학적 발견의 경계를 넓히고, ‘소네트 4’는 ‘소네트 3.7’에 이어 업그레이드된 것이다. 개발과 연구자들의 일상적인 작업에 최첨단 성능을 제공하고 있다”는 것이다.

메모리 성능 면에서도 이전 모델보다 훨씬 뛰어나다. 애플리케이션을 개발할 때 ‘오퍼스 4’에 로컬 파일 접근 권한을 주면, 메모리 파일을 생성하고 관리함으로써 개발자 역시 숙련될 수 있다는 얘기다. 그래서 “모델은 핵심 정보를 더욱 효율적으로 저장해, 일관되게 작업의 품질을 높일 수 있다”는 설명이다.

“‘뛰어난 내구성’과 일관된 품질도”

‘오퍼스 4’는 또 성능과 내구성을 모두 겸비하고 있다. 역시 ‘라쿠텐’ 벤치마크에서 진행된 테스트에서 이는 7시간 동안 독립적으로 실행되면서 "까다로운" 오픈 소스 리팩토링 작업을 성공적으로 수행했다. 특히 “지속적인 성능”을 앤스로픽은 강조했다.

이는 성능과 수명 측면에서 획기적인 변화를 의미하며, ‘오퍼스 4’를 활용하는 개발자들이 잠깐씩이 아닌, 하루 종일 작업할 수 있음을 시사한다. 앤스로픽은 또 블로그 게시물에서 “다른 모델에서는 해결하지 못하는 복잡한 문제를 해결하는 데 탁월하며, 이전 모델에서는 놓쳤던 중요한 작업을 성공적으로 처리할 수 있다”고 밝혔다.

앤스로픽은 ‘오퍼스 4’와 ‘소네트 4’를 “두 가지 서로 다른 모드를 제공하는 ‘하이브리드 모델’”이라고 설명했다. 또 “두 가지 모드엔 즉각적인 응답과 심층적인 추론을 위한 확장된 사고가 포함된다”고 덧붙였다. 특히 ‘소네트 4’는 무료로 이용할 수 있다. 두 제품 모두 앤스로픽 API나, 아마존 베드록, 구글 클라우드의 버텍스 AI 시스템을 통해 제공된다.

저작권자 © 애플경제 무단전재 및 재배포 금지