‘CES 2024’서 래빗의 AI네이티브 휴대용 기기 ‘R1’ 등장
앞서 中텐센트 개발 ‘AppAgent’ 개념 상용화로 주목
사용자 AI 실행, LLM이 바로 각종 앱 가동, 챗GPT플러그인보다 진화
[애플경제 전윤미 기자] 만약 LLM이 직접 앱을 조작할 수 있다면 어떨까. 터치 스크린이나 스와이프, 또는 키패드 입력처럼 사람이 작동하는 것처럼 LLM이 직접 앱을 구동하는 상황을 상상할 수 있다. 그러나 그런 ‘상상’이 이젠 현실이 되었다.
외신들, ‘CES2024’ 5대 발명품으로 꼽아
이미 중국의 텐센트는 이같은 ‘앱에이전트’(AppAgent)를 개발한 바 있다. 이는 생성AI의 다음 단계인 ‘AutoGPT’나 ‘Generative Agents’ 같은 자율적인 모델로 접어드는 조짐으로 해석된다. 그런 가운데 특히 ‘CES 2024’에서 전문가들이 ‘혁명적’이라고 표현하는 AI 네이티브 휴대용 기기 ‘R1’이 최초로 앱에이전트를 상용화한 제품으로 주목을 끌었다. 래빗(Rabbit)이 개발한 R1은 대부분의 외신과 기술매체들이 ‘CES2024의 5대 발명품’의 하나로 꼽을 만큼, 획기적인 제품이란 평가다.
이는 쉽게 말해 AI가 내장된 기기를 품에 넣고 다니며, 마치 스마트폰 터치하듯 AI를 실행하면 바로 각종 앱이 가동되는 것이다. 이를 본 전문가들은 “가까운 미래에 스마트폰에도 이 기술이 적용되면, 굳이 사용자가 앱을 터치할 필요없이 AI에 (음성, 텍스트 등 프롬프트로) 명령만 내리면 어떤 앱이든 구동할 수 있을 것”이란 예상까지 나온다.
실리콘밸리의 AI 개발 스타트업으로 최근 많은 관심을 끌고 있는 래빗은 이 제품으로 또 한번의 ‘획기적인 사건’을 일으킨 셈이다.
기술매체들과 전문가들의 분석을 종합하면, R1은 Rabbit OS라는 AI 전용 운영체제를 탑재하고 있다. 터치스크린이 되는 작은 화면과 마이크, 스피커가 내장되어 있다. 사용자가 오른쪽 버튼을 누르고 음성으로 명령만 내리면 4GB 램, 128GB 저장공간, 와이파이와 4G를 지원하고 통화도 가능하다.
스마트폰과 달리 수많은 앱, 각각 실행 불필요
이는 기존 스마트폰과는 전혀 다른 모바일 혁명을 예고한다. 기존 스마트폰에서 앱을 구동하려면 수많은 앱들을 각각 실행해야 한다. 예를 들어 음악을 들을 때는 스포티파이 앱, 택시를 부르기 위해선 카카오 T 앱, 음식을 주문하려면 배민 앱을 따로따로 사용하는 방식이다. 국내의 한 AI개발자는 이런 불편을 지적하며, “이런 과정을 하나로 통합하기 위해 아이폰의 ‘시리’가 탄생했지만 ‘룰베이스 AI’의 한계로 이해력이 떨어져서 한계가 있었다”고 지적하기도 했다.
그러다가 LLM 기반의 챗GPT 플러그인이 보급되면서 상황이 개선되었다. LLM의 뛰어난 프롬프트 이해력을 API 호출 기능과 연결, 특정 앱을 수행할 수 있게 된 것이다. 사용자가 말로 명령을 내리면, LLM이 그 API를 실행하기 위한 세부적인 방법을 제 나름대로 탐색한다. 즉, ‘룰베이스 AI’이 기능이 크게 확장된 것이다. 종전에는 ‘룰베이스 AI’를 사람이 설계해야 했기 때문에 한계가 있었다는 것이다.
일일이 LLM과 연동, 자체 플러그인 만들 필요없어
그러나 AI 기술은 여기서 머무르지 않았다. 챗GPT 플러그인에서 더욱 발전한 것이 바로 텐센트가 개발한 ‘앱에이전트’다. 애초 챗GPT 플러그인은 플러그인 기능을 적용하려면 앱 하나하나마다 일일이 개발자가 LLM과 연동할 수 있는 자체 플러그인을 만들어야 했다.
이에 비해 앱에이전트나 R1은 LLM이 직접 앱을 조작할 수 있다. 스마트폰 화면이나 키패드 입력처럼 앱에이전트가 스스로 사람의 명령을 입력, 직접 앱을 구동하는 것이다.
앞서 텐센트가 앱에이전트를 선보였을 때도 이는 ‘충격’이었다. 기존의 ‘시리’같은 개인비서는 필요한 프로세스가 시스템상에 미리 구현되어 있어야만, 자연어를 이해하고 명령에 따른 기능을 API로 호출한다.
이에 반해 앱에이전트는 한층 진화된 기능이다. R1은 사용자의 명령과 화면의 스크린샷을 보고 자체 LLM 스스로 어떤 작업을 해야 하는지 결정한다. 사용자가 터치하기만 하면, 별도의 API 호출 없이 앱을 조작, 구동한다. 이런 기능은 다양한 앱에 모두 적용된다.
이같은 앱에이전트는 크게 ‘Exploraton Phase’(검색 구문)과 ‘Deployment Phase’(실행 구문)로 나뉜다. ‘Exploration Phase’는 LLM 스스로 이것저것 시도하며, 그 결과를 문장으로 설명하는 Doc(문서)로 저장한다. 또 사람의 행동을 보고 배우는 방법도 구사한다.
‘Deployment Phase’에서는 이전에 저장했던 Doc를 참조, 행동을 결정한다. 한 단계의 행동가 끝나면 그 과정을 다시 문장으로 요약하여 다음 행동을 선택하는데 참고자료로 사용하기도 한다.
GPT-4보다 앱에이전트 성능 월등해
전문가들에 의하면 실제로 실험 결과 GPT-4보다 앱에이전트의 성능이 월등히 높은 것으로 나타났다.
이번 ‘CES 2024’에 등장한 R1의 Rabbit OS가 바로 AppAgent의 개념을 상용화한 버전이다. 다만 기존 스마트폰처럼 R1에 외부 앱을 설치할 수는 없다. 이에 래빗사는 자체적인 ‘Rabbit Hole Web Portal’을 제공하고 있다. 사용자들은 포털 사이트에서 자신이 사용하고픈 각종 앱서비스를 지정할 수 있다. 이를 위해 사용자 계정으로 포털에 로그인을 해놓으면 R1으로 쉽게 조작할 수 있다.
R1은 또 가상머신 기술과 LAM(Large Action Model, 대형행동모델) 기술을 적용한 것으로 알려졌다. 사용자가 특정 서비스를 명령하면 래빗 클라우드에서 가상머신을 실행, 사용자계정으로 해당 앱의 로그인을 한다. 그런 다음 앱의 UI를 통해 직접 AI가 조작, 앱을 작동시킨다. 그 과정에서 특히 LAM을 새로 학습하도록 했다. 이는 LLM보다 더욱 진화된 것으로 텍스트와 함께 UI 액션까지 곁들인 것이다.
또 래빗사의 웹 포털에 없는 서비스를 사용하려면, ‘Teach 모드’로 직접 학습하도록 했다. 사이트 주소를 입력하고 녹화버튼을 누른 다음 원하는 기능을 사용자가 직접 실행하는 것이다. 일단 이런 방식으로 한번 등록해놓으며, 다음부턴 R1에게 명령만 하면 자동으로 해당 기능을 수행한다.
웹 포털 연결이 한계, “언젠가 스마트폰에 적용”
그러나 웹 포털로 앱서비스를 연결하는건 매우 불편하다는 지적도 따른다. 이는 래빗사 자체로선 앱 생태계를 구축하기 어렵기 때문에 나온 고육지책으로 해석된다. 그럼에도 불구하고, 이를 접한 AI개발자들은 “플러그인의 경우 각각의 앱이 자신의 API와 연동하는 플러그인을 개발해야 했지만, 래빗의 LAM을 쓰면 이런 문제가 해결된다. 거추장스러운 플러그인을 지원 안해도 모든 앱을 말로 조작할 수 있다”고 놀라워하기도 한다.
현재 R1의 가격은 200달러 미만이다. 기기만 구입하면 별도의 사용료도 없다. 이는 “초기 유저를 확보하기 위해 거의 무료로 보급하는 셈”이라는 해석이다.
문제는 앞으로 전개될 상황이다. 이번에 출현한 R1을 기존 스마트폰 제조업체들도 눈여겨보고 있다. 언젠가는 아이폰이나 안드로이드에 RI의 앱에이전트 기능이 내장될 수도 있기 때문이다. 결국 앱에이전트 기술의 완성도와 생태계 능력이 경쟁의 관건이 될 것이란 전망이다.
