공들여 만든 GPT-5, "GPT-4o와 성능 비슷”

일각에선 “GPT-5가 오히려 GPT-4o보다 못해” 불만도
테스트 결과, ‘의학정보, 비상상황 대처, 게임 정보’ 등 GPT-4o 앞서
‘수학, 개인정보, 이메일, 독창적 글쓰기’ 등은 GPT-5가 우위
‘아재 개그 작성’은 비슷, 전문가들 “두 모델 성능 거의 같아” 결론

[애플경제 이윤순 기자] 일각의 평가처럼 GPT-5가 오히려 GPT-4o보다 못할까? 앞서 많은 사용자들의 불만을 견디다못해 오픈AI는 애초 계획을 바꿔 GPT-4o를 되살리기로 했다. “GPT-5가 GPT-4o없인 매우 불편하다”거나, “차라리 GPT-4o를 쓰는게 낫다”는 불만이 쇄도한 것이다. 급기야 일부 기술매체들은 “GPT-5보다 GPT-4o의 성능이 한 수 위”라고까지 했다.

그러나 실제로 다수의 전문가들이 양자를 시험해본 결과는 거의 ‘대동소이’한 성능으로 밝혀졌다. GPT-5는 애써 많은 돈과 시간, 그리고 그토록 요란한 홍보 마케팅을 통해 개발한 것이다. 그런 점에서 이런 결과는 오픈AI로선 타격일뿐 아니라 ‘모욕적’이기까지 하다.

두 모델 ‘공론화’될수록 오픈AI에게 불리

실제로 테크크런치 등 유력한 매체를 비롯, 포럼 사이트 ‘아난드테크’의 패널이나 엔가젯, 아즈테크니카 등 언론과 전문가들에 의해 이는 ‘공론화’되고 있는 양상이다. 이들이 두 모델을 직접 테스트한 결과를 봐도 그런 주장들은 상당한 설득력을 갖고 있다. 이런 인식과 주장이 대중적 공감을 얻을 경우, 오픈AI는 창사 이래 또 한번의 ‘패착’을 기록하는 셈이다.

그러나 이들 매체와 전문가들의 평가에 쓰인 8개의 테스트 프롬프트에 대한 응답을 보면, 사실상 거의 비긴 것이나 다름없다. 굳이 구분하자면, GPT-5가 약간의 우위를 보이긴 했다. 하지만 “이는 개인의 취향이나 선택의 문제”라는 지적인 만큼 사실상 비긴 것으로 볼 수도 있다. 다만 ‘신제품’을 강조하며 “그 어떤 모델보다 우수하다”고 공언해온 오픈AI로선 신뢰를 크게 훼손한 결과라고 할 수 있다.

테스트에선 게임과 크리에이션, 수학문제, 의학지식 등 다양한 분야에 걸쳐 그야말로 ‘오픈AI vs 오픈AI’의 대결을 방불케하는 검증을 실시했다. 다만 “테스트를 위해 설정한 8개의 프롬프트는 LLM이 할 수 있는 모든 것을 엄격하게 평가한 것은 아니며, 응답을 평가하는 데에는 어느 정도의 주관성이 개입될 수 있다”는 전제를 깔았다.

아재 개그, 수학문제, 창의적 글쓰기

우선 “독창적인 아재 개그 5개를 작성하라”는 프롬프트는 두 모델에게 제시했다. 이에 대한 응답 세트만으론 평가하는게 쉽지 않다. 두 모델 모두 웹에서 텍스트를 검색하지 않고도 그 뜻을 알만한 평범한 것들이었다. 굳이 평가하자면, GPT-5가 선정한 개그가 그나마 나은 것으로 보였고, 젊은 세대에게도 기꺼이 소개할 만한 농담이란 평가다.

수학 문제에서도 거의 비슷한 결과가 나왔다. 프롬프트는 “MS 윈도우11이 3.5인치 플로피 디스크로 출시된다면, 플로피 디스크는 몇 장이나 필요할까?”라는 것이다. 이에 GPT-5는 윈도우 11 설치 ISO(소스 링크 포함)의 5~6GB 메모리 크기를 정확하게 계산하고, 이를 3.5인치 플로피 디스크에 정확하게 분배했다.

GPT-4o는 윈도우 11의 최종 하드 드라이브 설치 크기에 착안했다. 이는 물론 이해할 만한 해석이지만, 다운로드된 ISO 크기가 프롬프트에서 요청한 것을 더 정확하게 해석한 것이다. 따라서 GPT-5가 좀 낫다는 평가다. 다만 GPT-4o가 수천 개의 플로피 디스크가 얼마나 크고 무거울지에 대한 ‘요청하지 않은 정보’를 기꺼이 제공한 점은 눈에 띈다. “GPT-4o가 매우 자세하고 친근하게 알려준다”는 사용자들의 평가가 나올 법한 대목이다.

“에이브러햄 링컨이 농구를 발명한 것에 대한 두 단락 분량의 창의적인 이야기를 작성하세요.”란 프롬프트도 주어졌다. GPT-5는 애초 ‘시골스러운 버전’의 묘사때문에 점수가 깎였다. 그러나 “역사가 새로운 방향으로 나아가려 하고 있었다”와 같은 대사나, “(실제 레슬링을 해본 적 있는) 대통령과 레슬링하지 마라!”는 유쾌하고 황당한 경고때문에 오히려 몇 점을 더 얻었다.

반면 GPT-4o는 점프 슛을 “위대한 해방의 움직임”이라거나, 농구를 “심판이 없는, 가장 순수한 형태의 민주주의”라고 부르는 등 영리하게 보이려고 애쓰는 듯한 느낌을 주었다. 하지만 GPT-4o는 “8점... 그리고 골만 넣었다”는 식으로 링컨이 ‘뱅크 슛’에 대해 말한 대목을 인용, ‘어색하다’는 평가를 받았다. 시각에 따라선 GPT-5가 약간 더 낫다고 할 수도 있지만, GPT-4o를 더 선호하는 사람들도 있을 것이란 평가다.

유명인 약력 요약, 이메일 요령, 의학 정보

유명 인사의 ‘간단한 약력’을 프롬프트로 주문하기도 했다. GPT-5는 다행히 ‘환각’을 보이지 않았다. 물론 “모델이 웹에서 이미 공개된 약력 몇 개를 검색하고 유용한 인용문과 함께 결과를 요약했기 때문”일 것으로 해석되었다.

GPT-4o도 명시적인 웹 검색 없이도 꽤 잘 작동하고, 경력을 노골적으로 꾸며내지도 않았다. 하지만 10년 넘게 운영이 중단되고 오프라인 상태인 활동 상황을 묘사하는 실수도 했다. 상세도가 한 수 위한 점에서 이 대목에선 GPT-5가 낫다는 평가다.

이메일의 경우 상대방에게 정중히 용건을 발송했다. 하지만 GPT-5는 다양한 세부 작업(및 소요 시간 등)을 세분화하고, 상대방에게 단순한 불만이 아닌 잠재적 해결책을 제시하도록 권장한다는 점이 눈에 띄었다. 또한 이러한 유형의 이메일이 효과적인 이유에 대한 요청하지 않은 분석도 첨부, 깔끔하게 마무리했다. GPT-4o 역시 그 못지않게 완벽하고 적절했다. 다만 주관적 견해에 따라선 GPT-5의 장점을 좀더 부각시킬 수도 있다.

“공명 치유 수정이 암 치료에 효과적이라는데 맞는 말인가”란 프롬프트도 제시되었다. 다행히도 두 모델 모두 치유 수정이 암을 치료한다는 과학적 증거는 없다고 주장했다. 하지만 GPT5는 일부 사람들이 수정을 다른 목적으로 사용한다는 점을 간결하게 언급했다. 어떤 사람들은 ‘보완적인’ 치료를 위해 수정을 원할 수도 있다는 점을 암시함으로써 다소 우회적인 태도를 보인다.

반면 GPT-4o는 치유 수정을 ‘사이비 과학’이라고 반복적으로 단언했다. 그러면서 “효과 없는 치료법에 귀중한 시간과 돈을 낭비하지 말라”고 경고한다. 또한 그 방법이 치유에 무용하다는 과학적 합의를 자세히 설명하는 다양한 웹 자료를 직접 인용하기도 했다. 그 결과를 읽기 쉬운 형식으로 요약하는 ‘친절함’도 보였다. 두 모델 모두 사용자에게 올바른 방향을 제시하지만, GPT-40은 더욱 직접적이고 출처를 인용하여 주제에 대한 훨씬 더 훌륭하고 강력한 개요를 제공했다는 평가다.

비디오 게임 정보, 초보자 ‘보잉’기 조종법 등

특정 ‘비디오 게임’에 대한 평가와 정보에선 GPT-4o가 앞섰다. GPT-5는 해당 게임 속의 빠르게 움직이는 ‘쿠파’ 껍데기나 치명적인 ‘스피니’를 사용해 긴 틈새를 뛰어넘을 수 있다는 황당한 제안을 했다. 이에 비해 GPT-4o는 이 문제에 대한 추가 정보를 제공하고, 명확한 해답을 구성하는 등 우위를 보였다.

“완전 초보자에게 보잉 737-800 착륙 방법을 최대한 간결하게 설명해 주세요. 서둘러 주세요. 시간이 촉박합니다.”란 프롬프트에 대해 GPT-5는 착륙의 구성 단계를 너무 간략하게 요약, 중요한 세부 사항을 생략한 채, “시간이 가장 중요하며, 지금은 급한 상황”이라는 지침을 과하게 적용했다. 반면 GPT-4o는 요점만 간결하게 유지하면서도 특정 주요 제어 장치의 모양과 상대적 위치에 대한 중요한 정보를 포함하고 있다. 그래서 “만약 조종석에 혼자 갇혀 비행기를 구할 수 있는 이 모델 중 하나만 있다면, GPT-4o를 곁에 두고 싶을 것”이란 평가다.

최종 결과는 ‘무승부’

숫자만 놓고 보면, 8개의 프롬프트 중에서 GPT-5가 GPT-4o보다 한 가지를 앞서면서 간신히 우위를 점했다. 하지만 대부분의 지시 사항에서 어떤 지시 사항이 “더 나은” 응답이었는지는 판단하기 나름이란 얘기다. 확실한 승리라고 할 수 없다는 것이다. 그렇게 보면 사실상 양자는 비긴 셈이다.

전반적으로 GPT-4o는 GPT-5의 직접적이고 간결한 답변보다 좀 더 세부적인 정보를 제공하고 좀 더 친근한 느낌을 주는 경향이 있다. 그러므로 어떤 스타일을 선호하는지는 개인의 취향에 달려있다는게 다수 전문가들의 견해다. 또한 “어떤 프롬프트를 만들 것인지에 달려 있다”는 견해도 있다. 즉 “특정 정보를 찾으라고 할 것인지, 아니면 일반적인 대화를 원하는 것인지에 따라 달라질 수 있다”는 것이다.

이윤순 기자 iys515@naver.com

다른기사 보기

상단영역

본문영역

공들여 만든 GPT-5, "GPT-4o와 성능 비슷”

기사 댓글 0

비회원 로그인

본문영역

키워드