텍스트나 사진이 있는 문서, 다이어그램, 스크린샷 등 다양한 성능
‘GPT-3.5’보다 수리 능력, 논리적 글쓰기 능력 뛰어나
美 변호사 시험 90점, SAT 93점…“사용자, 업무 용도따라, 구매 여부 결정”

기존 챗GPT보다 향상된 기능의 GPT-4 버전을 설명하고 있는 오픈AI사의 사이트 화면. (출처=오픈AI)
기존 챗GPT보다 향상된 기능의 GPT-4 버전을 설명하고 있는 오픈AI사의 사이트 화면. (출처=오픈AI)

[애플경제 김향자 기자]지난 3월 오픈AI는 기존 챗GPT나 GPT-3.5 수준보다 성능이 뛰어나다는 GPT-4를 내놓았다. 과연 이는 직전 모델에 비해 기능이나 성능이 얼마나 향상되었을까. 전문가들도 “기존 GPT-3.5 등에 비교해, 용도나 업무 프로세스를 어떤 수준으로 향상시킬 것인가에 따라 GPT-4를 선택할 수 있다”고 권한다.

현재 오픈AI는 챗GPT 사이트에서 챗GPT 플러스 형태로 월 구독료 20달러로 이를 출시하고 있다.

오픈AI사와 WSJ, 뉴욕타임즈, 각종 기술매체 등을 통해 소개된 GPT-4를 보면, 이 역시 사람과 흡사한 말투와 추론 능력을 모방한 대형 AI언어 모델이다. 고전 문학 작품에서부터 현대 인터넷 문화에 이르기까지 인간의 방대한 문명의 산물을 학습받았다.

문자, 숫자의 논리적 순차와 배열능력 탁월

특히 특정한 문자나 숫자의 순차적 배열, 혹은 문자가 어떤 순서대로 배열될 것인지에 관한 예측 능력이 뛰어나다. 다시 말해 순열,조합과 같은 수리적 능력이나, 논리적인 글쓰기 능력이 훨씬 뛰어나다는 얘기다. 이미 챗GPT만으로도 기자들을 대신한 기사 작성이 가능한 수준이지만, GPT-4는 그 보다 훨씬 정돈되고 논리적인 문장을 이어갈 수 있다.

오픈AI사는 “GPT-4는 사람이 만든 산문, 예술, 비디오 또는 오디오를 모방할 수 있는 대형 멀티모달 모델”이라고 정의하면, “문장과 글쓰기, 문서작성 능력을 비롯해, 텍스트나 이미지를 생성할 수 있다”고 소개한다.

오픈AI는 GPT-4가 훈련받은 모델의 크기를 밝히지 않고 있다. 다만 “챗GPT가 훈련받은 수십억 개의 매개 변수보다 ‘훨씬 많은 데이터와 더욱 많은 계산’”이라고만 언급한다. 일부 전문가들은 100억개 이상을 될 것이라고 추측하기도 한다.

GPT-4는 또한 픽션(소설 등과 같은 허구적 스토리)을 포함한 다양한 문서와 자료를 작성하는 능력이 GPT-3.5보다 더욱 탁월하다.

'GPT-4가 무엇인가?'라는 질문에 챗GPT는 "2021년 9월 이전 정보만 갖고 있어, 자세한 정보는 갖고 있지 않지만, AI의 획기적 발전을 위한 노력이 진행되고 있다"고만 답변했다. 실제로 GPT-3 역시 2021년 9월 이전의 정보만으로 학습되어 있다.(사진=오픈AI)
'GPT-4가 무엇인가?'라는 질문에 챗GPT는 "2021년 9월 이전 정보만 갖고 있어, 자세한 정보는 갖고 있지 않지만, AI의 획기적 발전을 위한 노력이 진행되고 있다"고만 답변했다. 실제로 GPT-3 역시 2021년 9월 이전의 정보만으로 학습되어 있다.(사진=오픈AI)

각종 표준화된 테스트에서 GPT-3.5 압도

GPT-4는 또한 각종 표준화된 테스트에서 기존의 챗GPT보다 더 뛰어난 성능을 발휘하기도 한다. 프롬프트에 대한 답변은 GPT-3.5의 챗GPT보다 더 간결하고 분석하기 쉬운 구문으로 전개되고 한다.

테스트 결과, GPT-4는 스케줄링이나 요약(Summery)와 같은 비즈니스 의사 결정 능력도 GPT-3.5보다 우수하다. OpenAI는 GPT-4가 “허용되지 않는 콘텐츠에 대한 요청에 응답할 가능성은 82%나 낮고, 사실적인 응답을 생성할 가능성이 40%나 더 높다.”고 한다.

특히 GPT-3.5와의 가장 큰 차이점은 GPT-4가 이미지를 처리할 수 있다는 점이다. 이는 눈 앞의 대상이나 사물을 이미지로 묘사, 설명하는 능력이 출중하다는 평가다. 또한 시각적 묘사를 통해 웹사이트의 중요한 요소들을 결정하고, 설명하는 기능도 뛰어나다.

OpenAI는 또 “텍스트나 사진이 있는 문서, 다이어그램 또는 스크린샷을 포함한 다양한 영역에서 GPT-4는 텍스트 전용 입력과 유사한 편의성을 갖고 있다”고 소개한다. 즉 GPT-3.5에 텍스트를 입력하는 정도의 수고만으로 텍스트는 물론, 다양한 사진과 그림, 다이어그램, 그래픽, 스크린샷 등을 생성할 수 있다는 뜻이다.

뛰어난 멀티모달 성능, 콘텐츠 요약, 추론 능력도 우수

이전 버전인 GPT-3.5와 마찬가지로 GPT-4 역시 자연어 질문이나 다양한 프롬프트에 대한 응답 기능이 핵심이다. 오픈AI는 “GPT-4가 자연어로 된 복잡한 지침을 따르고 어려운 문제를 정확하게 해결할 수 있다”면서 “구체적으로, GPT-4는 수학 문제를 풀고, 질문에 답하고, 추론을 하거나 이야기를 할 수 있음”을 강조했다.

또한 GPT-4는 많은 양의 콘텐츠를 요약할 수 있다. 마치 간호사가 환자의 모든 상태와 진단 결과를 요약하는 것처럼 다양한 비즈니스 용도에 활용될 수 있다는 얘기다.

특히 오픈AI에 따르면 GPT-4는 각종 올림피아드 시험이나, 변호사 자격 시험 등을 대상으로 한 실험에서도 뛰어난 성적을 나타낸 것으로 평가되었다. 변호사 자격 시험에선 100점 만점에 90점, 그리고 미국 SAT의 읽기 및 쓰기 시험에서 93점이라는 우수한 성적을 거두었다.

‘환각’ 유발, 사실과 다른 ‘논리적’ 추론 등 한계도

그러나 GPT-3이나 GPT-3.5 이전의 버전과 마찬가지로 GPT-4도 한계가 있다. 예를 들어 GPT-4는 자신이 작성한 문장이 정확한지 여부를 확인하지 않는다. 특히 GPT-4는 인공지능에 의한 부정확하고 황당한 망상이라고 할 ‘환각’ 현상을 유발하기도 한다.

또 텍스트와 이미지를 생성하는 과정에서 비논리적이거나 선동적인 내용으로 변질될 수도 있다. 이에 대해 오픈AI는 “가능한 한 유용하면서도 비즈니스에 적합하게 유지하기 위해 디지털 제어 장치와 휴먼 트레이너 기능을 두고 있다”고 했다.

또 GPT-4가 생성한 단어나 문장이 사전 학습된 바에 따라 순서나 논리를 갖출 수는 있어도, 사실이나 진실 여부가 확인되거나 실제 사건과 직접 연결되지는 않는 경우도 많다. 이에 오픈AI 역시 “모델에서 생성되는 거짓 답변의 확률을 줄이기 위해 노력하고 있다”고 밝혔다.

또한 GPT-3.5와 마찬가지로 GPT-4는 2021년 9월 이후의 정보를 학습한 바가 없다는 점이 문제로 꼽히기도 한다. 반면에 GPT-4의 경쟁사인 구글 ‘바드’(Bard)는 최근의 상황에서 학습된 결과, 최신 정보를 보유하고 있다는 점에서 비교가 된다.

오픈AI사의 자사 제품 소개 화면.
오픈AI사의 자사 제품 소개 화면.

챗GPT 사이트에 공개 버전, 기업고객 긴 대기줄

현재 GPT-4의 공개 버전은 챗GPT 포털 사이트에서 제공된다. 오픈AI는 그러나 사이트 ‘용량 제한’ 등으로 인해 액세스 속도가 느릴 수 있다고 해명한다. 대신에 회사측은 GPT-4를 자주 사용하는 사람들을 위한 새로운 구독 레벨과, 제한된 수의 쿼리를 허용하는 무료 GPT-4 액세스 포털을 출시할 계획이며, 아직 그 정확한 일정은 공개되지 않았다.

그렇다보니 GPT-4 API를 사용하고자 하는 기업 고객들이 현재 대기자 명단에 긴 줄을 서고 있다는게 오픈AI 측의 설명이다. 회사측에 따르면 그러나 시각적 기능까지 포함하여 완전한 파트너로서 액세스 권한을 부여받은 기업은 현재로선 미국의 소프트웨어 그룹인 ‘비마이아이즈’(Be My Eyes)사 한 곳뿐으로 알려졌다.

그렇다면 과연 기왕의 GPT-3.5 등을 GPT-4로 업그레이드해야 할까. 이에 대해 전문가들의 시각은 다양하지만, “GPT-4의 새로운 기능이 비즈니스에 적합한지 여부는 주로 (기업 혹은 사용자 개인의) 용도와 기존 자연어 AI로 실익을 거두었는지 여부에 따라 결정해야 한다”는게 지배적인 의견이다. 또 GPT-4가 시간을 절약하거나 비용을 절감할 수 있는 부분이 있는지도 고려할 사항이란 조언이다.

저작권자 © 애플경제 무단전재 및 재배포 금지