(2-②) 인간의 ‘五感’ 갖춘 ‘LMM’-‘시장 경쟁’ 치열

빅테크, 대형 멀티모달 시장 쟁탈전 불붙어, 다양한 앱 개발 경쟁 구글 제미니, 오픈AI ‘소라’, 앤스로픽 ‘클로드3’, 애플 ‘패럿’ 등 네이버 ‘클로바X’, 카카오 ‘허니비’ 등 국내 기업들도 멀티모달 경쟁 참여

2024-05-17     전윤미 기자
오픈AI의 '소라' 영상.

[애플경제 전윤미 기자] 멀티모달은 문서 이외에 이미지와 영상, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 기술이다. 최근엔 ‘대규모 멀티모달’(LMM) AI와 상호 작용하는 다양한 AI 애플리케이션도 쏟아지고 있다. 특히 국내외 빅테크들이 앞다퉈 기술과 제품 개발에 열을 올리면서 날로 경쟁이 치열해지고 있다.

대표적으로 LMM의 초기 모델 정도로 평가받는 구글 제미니(Gemini)는 텍스트, 이미지, 오디오, 동영상, 코드에서 추론이 가능한 네이티브(native) 멀티모달 AI로 다양한 상호 작용을 구현하고 있다. 최근에는 텍스트, 이미지, 오디오 등 다양한 모달리티를 동시 처리하는 생성AI 애플리케이션 서비스가 개발‧확장되고 있다.

빅테크 기업들 간에 생성AI 기술을 고도화한 멀티모달 AI시장의 주도권을 잡기 위한 경쟁이 더욱 가속도가 붙고 있다. 즉히 생성AI 문서와 이미지에 이어 영상을 생성하는 분야에서도 경쟁은 치열하다. 이미 오픈AI의 ‘소라’(SORA), GPT-4 Turbo, 앤스로픽의 클로드3, 구글 제미니 Pro 등이 출시된 상황이다. 이들은 모두 인간과 가장 흡사한 인공지능 기술을 구현하기 위해 노력한 결과물들이다.

오픈AI ‘소라’, 앤스로픽의 ‘클로드3’

그 중 오픈AI의 ‘소라’(Sora)는 챗GPT 개발과 문자 명령어를 영상으로 변환해주는 비디오 생성 AI 모델이다. 사용자가 입력한 프롬프트(명령어)에 따라 텍스트를 최대 1분 길이의 비디오로 만들어내는 기술이다. 문자나 구두로 된 문장을 AI가 상상하고 재구성해서 영상으로 만들어낸다는 점에서 획기적이다. 이는 또 여러 가지 캐릭터와 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성해낸다. 챗GPT를 통해 개인용 챗봇 제작이 가능한 것처럼, 배경음악, 음성 등을 합성, 특정 영상 제작 등의 상상의 한계를 넘어 범용인공지능(AGI)로 가는 중요한 이정표가 될 것이란 평가다.

다만 딥페이크 등 AI 기반 가짜 영상에 대한 탐지 분류기 도구 개발 등의 윤리적, 기술적 문제에 대한 안전조치를 마련한 후 대중화하기로 했다.

앤스로픽의 ‘클로드 3’(Claude 3)도 사진이나, 차트, 그래프, 기술 다이어그램을 처리할 수 있으며 PDF, 슬라이드 분석도 가능하다. 한 번 입력하면 최대 20개까지 여러 이미지를 분석할 수 있다. 이는 지금까지 개발된 유사한 LMM 중에서 가장 인간과 가까운 기능을 갖춘 것으로 평가된다. 그러나 윤리적, 법적 문제 때문에 사람과 관련된 이미지 식별은 불가능하게 했다.

이는 학습량에 따라 오푸스(Opus)와 소네트(Sonnet), 하이쿠(Haiku)의 3가지 버전으로 구성된다. 다른 모델에 비해 미묘한 콘텐츠를 생성하고, 분석, 예측하며, 정확한 요약과 코딩 및 과학적 쿼리에 탁월하다. 특히 오푸스는 학부 수준 지식과 대학원 수준의 추론, 기본 수학 능력을 갖췄으며, 업계 벤치마크 테스트에서 오픈AI ‘GPT-4’와 구글 ‘제미니 울트라’를 능가한 것으로 나타나기도 했다.

구글 ‘제미니’, 메타 ‘에뮤 비디오’

구글은 생성AI 분야에서 후발주자들로 인해 확실한 시장 우위를 갖지 못하고 있다는 평가다. 최근 ‘제미니(Gemini)’로 생성AI 브랜드를 일원화하고 시장 확보에 집중하고 있다. 그러나, 제미니의 이미지 생성 기능이 오류를 빚은데다, 오픈AI의 챗GPT, 메타의 오픈소스 모델의 도전을 받고 있는 상황이다. 애초 제미니는 대화용 챗봇 ‘바드(Bard)’와 워크스페이스용 ‘듀엣(Duet) AI’의 명칭을 바꾼 것이다. 그러나 조지 워싱턴을 흑인의 이미지로 묘사하거나, 1940년대 독일군을 흑인 여성으로 묘사하는 등 다수의 오류가 발견되었다.

특히 제미니 1.5 프로는 지난 2월 이처럼 사실과 다른 이미지 생성 오류로 서비스가 잠정 중단되기도 했다. 이는 텍스트·이미지·음성·영상을 생성하는 중형 멀티모달 모델로서, 최대 100만 개의 토큰 처리 능력을 갖췄다. 이는 기존 제미니1.0 프로(3만 200개)의 토큰 처리 규모를 30배 이상 확대한 것이다.

구글은 루미에르(Lumiere)도 선보였다. 이는 사전 훈련된 텍스트-이미지 모델을 활용, 비디오 속 사물의 위치와 움직임을 동시에 고려해 자연스러운 영상을 제작하는 기술이다.

메타는 텍스트만 갖고 영상을 편집‧생성하는 기능을 추가한 ‘에뮤 비디오’(Emu Video)를 선보였다. 이는 동종 데이터셋 중 최대 규모인 1000만개의 합성 샘플 데이터셋을 학습했다. 구글 ‘이마젠(Imagen)’에 비해선 81%, 엔비디아 '피오코(PYOCO)'보단 90%, 메타 '메이커비디오'에 비해선 96% 성능이 우수하다. 메타는 엔비디아의 고성능 그래픽처리장치(GPU) 등을 수십만 개 구입해 자사 컴퓨팅 파워를 강화하고 있다. 이는 또 이미지 편집·비디오 생성 AI 모델로 4초 길이의 애니메이션 클립을 생성한다.

메타는 텍스트를 비디오로 만드는 '에뮤 비디오(Emu Video)'와, 자연어로 이미지를 편집해주는 ‘에뮤 에디트(Emu Edit)’도 공개했다.

xAI는 그록-1.5V(Grok-1.5V)를 출시했다. 이는 텍스트와 함께 문서, 차트, 사진, 스크린샷, 다이어그램 등 다양한 시각적 정보를 처리한다. 어린이가 그린 그림 한 장만으로 동화 한 편을 창작할 수 있다. 이를 챗봇 ‘그록’에 적용할 예정이다.

오픈AI의 멀티모다 '소라'

후발주자 애플의 MLLM ‘패럿’

애플은 후발주자인 만큼 메타처럼 오픈소스 모델을 통해 LLM 시장에 진입, 챗GPT와 직접 경쟁을 벌이는 상황을 피하고 있다. 대신 전용 칩에서 온디바이스 AI를 구축하는 프레임워크와, 칩에서 AI를 구동하는 최적화 기술을 개발하고 있다. LLM ‘패럿’(Ferret)을 공개하며 영향력 있는 AI 연구를 위해 계속 노력하고 있다. 패럿은 이미지 내의 공간 참조(spatial referring) 및 시각적 근거(grounding)를 이해하도록 설계된 새로운 MLLM이다.

MM1에서 이미지 캡션, 인터리브 이미지 텍스트 및 텍스트 전용 데이터 등을 혼합하는 것에서 벤치마크 최고 성능을 달성하기도 했다. 30B(300억) 매개변수 모델로 이미지를 읽고 자연어로 설명하는 능력(VQA)에서 오픈AI 'GPT-4V'와 구글 '제미니 울트라'를 일부 추월했다. 이는 이미지 내에서 다양한 모양과 형식의 영역을 표현하기 위해 하이브리드 접근 방식을 사용한다.

애플은 또 아이폰 운영체제의 차기 버전인 iOS 18에 자체 AI 모델을 기반으로 한 새로운 기능 탑재를 위해 구글의 제미니(Gemini) AI, 또는 오픈AI의 AI 엔진 탑재를 추지하고 있다. 2023년부터 애플은 코드명 ‘Ajax’라는 자체 대규모 언어 모델(LLM)을 테스트하고, 자체 AI 기술력 개발에 매진해왔다. 그러나 삼성전자가 제미니AI 기능을 활용한 스마트폰을 출시한 시점에서 더욱 다급한 상황이 되었다.

네이버 ‘클로바 X’, 카카오 ‘허니비’

네이버 ‘클로바 X’(CLOVA X)도 LMM의 주요 기술 중 하나로 주목받고 있다. 텍스트뿐만 아니라 음성·이미지 코딩까지 생성하는 멀티모달로 진화하고 있다. 멀티모델 검색엔진 ‘옴니서치’는 텍스트와 이미지 등 서로 다른 입력 내용을 조합해 이해한 뒤 검색 결과를 도출한다.

챗GPT·바드 멀티모달 강화 움직임에 네이버 역시 AI챗봇 클로바X에 이미지 편집 기능을 추가했다. 이미지 편집 외에 향후 다양한 방식으로 멀티모달 기능을 순차적으로 덧붙여 나갈 계획이다. 예를 들어 고양이가 나온 사진을 강아지로 바꾸거나, 숲 배경의 사진을 바다로 변경 등 간단한 이미지 편집을 대화만으로 처리한다.

카카오 오픈소스인 멀티모달 언어모델 ‘허니비’(Honeybee)도 눈길을 끈다. 이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수있다. 특히 트웰브랩스 마렝고(Marengo 2.6)는 멀티모달 영상을 이해하는 모델로서, 영상, 이미지 및 음성 기반 모델을 통합 지원한다. 이는 분 단위의 짧은 영상만을 처리할 수 있는 다른 모델과 달리, 수백시간의 영상들을 실시간 처리할 수 있다.

카카오는 ‘허니비(Honeybee)’를 ‘깃허브’에 공개했다. 허니비는 ‘MME’, ‘MMBench’, ‘SEED-Bench’ 등 벤치마크(성능 실험)에서 모델이 공개된 타사 MLLM에 비해 최고 성능을 달성했다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서는 2,800점 만점 중 1,977점을 획득하기도 했다.