AI폰 추세 등을 겨냥, 별도 웹 앱으로 ‘자율적 임무 수행’
GUI에서 GPT-4o 버전 기능 훈련, ‘베타 버전 공개’

 

오픈AI와 생성AI를 시사하는 이미지. (출처=어도비스톡)
오픈AI와 생성AI를 시사하는 이미지. (출처=어도비스톡)

[애플경제 이윤순 기자] 삼성과 같은 노트북 및 스마트폰 제조업체가 모든 기기에 생성 AI를 확산, 적용하고 있다. 이런 기류에 맞춰 오픈AI가 23일 신개념의 ‘에이전틱 AI’인 오퍼레이터(Operator)를 출시해 눈길을 끈다. 이는 챗GPT와 같은 기본적인 기술을 바탕으로 실행되지만, 별도의 웹 브라우저 내에 있다. “이를 통해 식료품 주문이나 투어 예약과 같은 작업을 자율적으로 수행할 수 있다.”는 오픈AI의 설명이다.

오픈AI가 이날 자체 블로그 게시물에서 공개한 바에 따르면 ‘오퍼레이터’는 웹 브라우저와 생성 AI 모델 GPT-4o를 포함한 애플리케이션이다. 일반적인 웹 페이지의 그래픽 사용자 인터페이스(GUI)에서 GPT-4o의 버전 기능을 훈련하기 위한 프로젝트의 일환으로 제작된 것이다.

오픈AI는 블로그에서 “이는 필요한 경우 여러 단계의 계획을 수립하고 독립적으로 실수를 수정할 수 있는 기능으로 여느 에이전트 AI와도 차별화된다”면서 “특히 컴퓨터 사용 에이전트(CUA) 모델로서 페이지상의 버튼이나, 양식 및 메뉴에 대해 특별히 훈련된 것”이라고 소개했다.

이는 아직 베타 버전만 공개되었다. 향후 “초기 단계 사용자의 피드백을 참조, 개선할 것”이라고 밝혔다. 또한 플러스, 팀(Team), 엔터프라이즈(Enterprise)에 이를 제공할 계획이다. 또한 챗GPT에 대부분의 기능을 통합할 계획이다. “특히 API에 곧 CUA를 포함할 것”이라고도 했다.

오퍼레이터는 CUA의 추론 기술인 이른바 ‘내면의 독백’을 적용했다. 즉, 중간 단계를 이해하고 예상치 못한 프롬프트에도 탄력적으로 적응할 수 있도록 한 것이다. CUA의 경우 웹 페이지의 스크린샷을 찍고, 가상 마우스와 키보드를 사용, 탐색하기도 한다.

또한 챗GPT와 마찬가지로 사용자가 선호하는 항공사를 선택케하는 것처럼 오퍼레이터가 기억할 ‘사용자 지정’ 지침을 추가할 수도 있다.

사용자는 또 챗GPT를 프롬프트할 때와 같은 방식으로 오퍼레이터에게 자연어로 프롬프트할 수 있다. 사이트에 로그인하거나, 결제 세부 정보를 제공하며, 사람과 봇을 구분하는 ‘CAPTCHA’ 등을 훈련하는 등 각 단계에 대한 제어권을 사용자에게 귀속시켰다. 특히 은행 거래와 같은 요청을 수락하지 않도록 프로그래밍되어 있다. 또 직원을 고용할지 여부를 결정하는 등의 고난도나 고위험 상황의 프롬프트에 대해선 의견을 제시하지 않도록 했다.

또한 상호 작용하는 방법을 예측할 수 없는 인터페이스를 발견하면 즉시 사용자가 제어할 수 있도록 한다. 다만 오픈AI는 “초기엔 슬라이드쇼 만들기나, 달력에 항목을 추가하는 등의 ‘복잡한 인터페이스’에 어려움을 겪는 경향이 있다”고 지적하기도 했다.

일부 기능은 그러나 구글 제미니나 애플 인텔리전스 등 경쟁사의 툴과 유사하다는 평가다. 또 스크린샷을 사용하여 PC를 탐색, 논란을 불러 일으킨 MS의 ‘리콜’(Recall) 기능과 유사한 기능도 있는 것으로 알려졌다. 또한 크롬에서 구글 렌즈와 일부 기능을 공유하기도 한다. “그러나 자율적으로 웹사이트를 탐색하는 기능은 차별화 요소”라는 오픈AI의 설명이다. 또한 “생성 AI 모델이 사용자 계정에서 여러 단계의 심부름을 수행하는 ‘에이전틱 AI’ 기술 분야의 선두 주자임을 자부한다”고 했다.

저작권자 © 애플경제 무단전재 및 재배포 금지