오픈AI, 챗GPT 강화 ‘GPT-4o 옴니’ 모델 출시

다양한 텍스트, 음성, 비디오 처리 능력, “기존 GPT-4에 음성 추가” 약 50개 언어로 향상된 성능, 클라우드에서 ‘GPT-4 터보’의 2배 성능과 속도

2024-05-14     이윤순 기자
라이브스트리밍 컨퍼런스에서 GPT-4o 를 발표하고 있는 오픈AI의 CTO 미라 무라티. (사진=테크크런치)

[애플경제 이윤순 기자] 오픈AI가 14일(현지 시각 13일) 기존 GPT를 한층 강화한 플래그십 생성AI모델 ‘GPT-4o’를 출시했다. ‘o’는 ‘omni’를 의미한다. 즉, 모델의 다양한 텍스트 기능과, 음성 및 비디오 처리 능력을 뜻한다. ‘GPT-4o’는 앞으로 몇 주에 걸쳐 오픈AI 개발자와 소비자들에게 몇 차례에 나눠 출시된다.

이날 외신을 종합하면 오픈AI가 진행한 스트리밍 프레젠테이션에서 CTO 미라 무라티는 “‘GPT-4o’가 ‘GPT-4’ 수준의 지능을 갖고 있지만, 좀더 다양한 방식으로 미디어 전반에 걸쳐 GPT-4의 기능을 향상시킨다”고 말했다. 무라티는 또 “음성과 텍스트, 시각 전반에 걸친 ‘옴니버스’ 형태의 GPT-4o”면서 “이는 사용자들과 기계 사이에 이루질 상호 작용의 미래를 보여주는 중대한 의미를 갖고 있다”고 덧붙였다.

가장 진보된 ‘GPT-4 Turbo’ 업그레이드

지금까지 오픈AI의 가장 가장 진보된 모델은 ‘GPT-4 Turbo’다. 이는 이미지와 텍스트를 조합하는 한편, 이미지와 텍스트를 분석해 이미지에서 텍스트를 추출하거나 해당 이미지의 내용을 설명하는 등의 기능을 갖고 있다. 여기에 ‘GPT-4o’는 음성을 추가한 것이다.

또한 “‘GPT-4o’는 오픈AI의 AI 기반 챗GPT의 경험을 크게 향상시킨다”는 설명이다. 챗GPT는 오랫동안 텍스트-음성 변환 모델을 사용, 챗봇의 응답을 기록하는 음성 모드를 제공해 왔다. 그러나 ‘GPT-4o’는 이를 더욱 강화해 사용자의 보조자처럼 챗GPT와 상호 작용을 할 수 있도록 했다. 예를 들어 사용자는 ‘GPT-4o’ 기반 챗GPT에 질문을 하고 응답하는 동안 챗GPT를 중단시킬 수도 있다. 오픈AI에 따르면 이 모델은 ‘실시간’ 반응성을 제공한다. 또 ‘다양한 감정적 스타일’(노래 등)의 음성을 생성하는 응답을 통해 사용자 음성의 뉘앙스를 포착할 수도 있다.

GPT-4o는 챗GPT의 ‘비전’ 기능도 업그레이드했다. 사진이나 데스크톱 화면이 주어지면 챗GPT는 이제 “이 소프트웨어 코드에서 무슨 일이 벌어지고 있는 걸까요?”라거나, “이 사람은 어떤 브랜드의 셔츠를 입고 있나요?” 등과 같은 질문과 응답을 할 수 있다.

이러한 기능은 앞으로도 더욱 개선, 발전해갈 전망이다. 현재 ‘GPT-4o’는 다른 언어로 된 메뉴 사진을 보고 번역할 수 있지만, 미래에는 챗GPT가 라이브 스포츠 게임을 ‘시청’하고 규칙을 설명할 수 있는 수준에 도달할 수 있다.

무라티 CTO는 “그러면 모델이 점점 더 복잡해질 수 밖에 없지만, 상호 작용 경험이 실제로 더 자연스럽고 쉬워지고, 사용자가 UI에 전혀 집중하지 않고 챗GPT와의 협업에만 집중할 수 있게 될 것”이라며 “지난 몇 년 동안 우리는 이러한 모델의 지능을 향상시키는 데 중점을 두었다. 하지만 사용 편의성 측면에서 실제로 큰 진전을 이룬 것은 이번이 처음”이라고 규정했다.

“사용자, UI 개의치않고 챗GPT에만 집중”

‘GPT-4o’는 약 50개 언어로 향상된 성능을 갖고 있으며, 앞으로 더욱 다양한 언어를 지원할 것이라는 오픈AI의 주장이다. 오픈AI는 또 “오픈AI의 API와 Microsoft의 애저 OpenAI 서비스에서 GPT-4o는 GPT-4 Turbo보다 두 배 빠르고, 가격은 절반이며 제한 속도 역시 크게 높다”는 설명이다.

현재 GPT-4o API의 ‘음성’ 기능은 일부가 모든 사용자들에게 보급되려면 시간이 걸릴 예정이다. 오용의 위험을 언급한 오픈AI는 앞으로 몇 주 안에 GPT-4o의 새로운 오디오 기능을 지원하기 위해 “신뢰할 수 있는 소규모 파트너 그룹”부터 시작할 계획이라고 밝혔다.

GPT-4o는 오늘부터 챗GPT의 무료 계층과, 5배 더 높은 메시지 제한이 있는 오픈AI의 프리미엄 챗GPT Plus 및 팀 요금제 가입자에게 제공된다. 오픈AI는 “사용자가 제한 속도에 도달하면 챗GPT는 자동으로 오래되고 기능이 떨어지는 모델인 ‘GPT-3.5’로 전환한다”고 지적했다. ‘GPT-4o’를 기반으로 한, 향상된 챗GPT 음성 경험은 다음 달 또는 GPT 플러스 사용자를 위해 알파 버전으로 출시될 예정이다. 이는 기업 중심 옵션과 함께 제공된다.

오픈AI는 새롭고 더욱 소통이 원활한 홈 화면과 메시지 레이아웃으로 새로워진 챗GPT UI를 웹에 출시했다. 또 사용자가 키보드 단축키를 통해 질문하거나 받아들일 수 있는 macOS용 챗GPT 데스크톱 버전을 출시한다고 발표했다. 챗GPT Plus 사용자는 오늘부터 먼저 앱에 액세스할 수 있다. 윈도우 버전은 연말에 출시될 예정이다.

다른 곳에서는 또한 AI 모델을 기반으로 구축된 타사 챗봇을 위한 OpenAI의 라이브러리이자 생성 도구인 GPT 스토어를 챗GPT 무료 계층 사용자가 사용할 수 있다. 무료 사용자는 챗GPT가 향후 상호 작용에 대한 기본 설정을 "기억"하고, 파일과 사진을 업로드하며, 적시이 질문과 답변을 웹에서 검색할 수 있는 메모리 기능처럼, 이전에 무려도구였던 챗GPT 기능을 활용할 수 있다.