“지금껏 개발된 AI기술의 완결판…인간과 기계, 다양한 방식의 소통”
오픈AI의 달리(DALL․E)1․2 기술이 계기 “인간과 흡사한 이해․분석 능력”
국내외 빅테크 시장 경쟁 가열, 멀티모달로 유니콘으로 성장 케이스도

'2022 국제인공지능대전'에 출품한 인공지능 모델링 전문 기업의 부스로서, 본문 기사와 직접 관련은 없음.
'2022 국제인공지능대전'에 출품한 인공지능 모델링 전문 기업의 부스로서, 본문 기사와 직접 관련은 없음.

[애플경제 이보영 기자] 초대형 AI기술과 GPT 최신 버전에 이르기까지 인공지능 기술은 빠르게 진화하고 있다. 그런 가운데 현재까지 발전해온 인공지능 기술의 최첨단 결정체이자 완성체로서 멀티 모달 기술이 꼽히고 있다. 이는 AI기술로선 최고도의 인간과의 소통 능력, 그리고 때론 사람 못지않은 창의력을 발휘하기도 한다.

음성, 제스터, 표정, 시선 등으로 인간․기계 소통

멀티 모달 기술의 시작은 2021년 오픈AI가 텍스트로 이미지를 생성하는 멀티모달이 달리(DALl․E)를 공개하면서 부터다. 여기서 모달은 모달리티(Modality)는 인간과의 쌍방향 의사소통채널을 뜻한다. ‘멀티’는 텍스트뿐 아니라, 음성, 제스처, 표정, 시선, 생체신호 등 인간의 다양한 시그널을 이해하고 해석함으로써 반응한다는 것이다.

오픈AI는 우선 텍스트를 이미지로 변환시킬 수 있는 AI모델(달리)을 공개했다. 이는 120억개의 매개변수를 지닌 GPT-3을 기반으로 2억5천만개의 텍스트와 이미지를 함께 학습하는 기법을 적용한 것이다. 이를 통해 사물의 의인화가 가능하고, 서로 관련이 없는 사물을 합치는 것도 가능하게 되었다. 특히 추가로 학습을 하지 않았음에도 불구하고, 스스로 판단하고 추론하는 능력, 즉 ‘제로 샷’상황에서의 우수한 성능이 입증되어 놀라움을 안겼다.

“사람처럼 시청각 활용, 데이터 추론”

안랩은 이에 대해 국내에서 LG전자가 개발한 멀티 모달 모델인 ‘엑사원’의 사례를 들어 구체적으로 설명하고 있다. 즉, “사람처럼 시청각을 활용하고 데이터를 추론할 수 있는, 세계 최대 규모의 데이터를 학습한 인공지능”이라고 있다. 또 “문제의 ‘슈퍼 AI 엑사원’은 텍스트와 이미지 학습을 넘나드는 멀티 모달 기능을 수행한다”면서 “텍스트, 음성, 이미지, 영상 등 서로 다른 양식의 데이터를 자유자재로 이해하고 변환할 수 있어 사람처럼 배우고 생각하며 추론할 수 있다”고 요약했다.

한편 오픈AI는 다시 기능이 향상된 ‘달리’2를 지난해 4월 공개했다. 이에 대해 한국지능정보사회진흥원은 “현실감과 정확도가 크게 향상되고, 해상도는 무려 4배나 높아질 만큼 성능이 향상되었다.”고 평가한다. 이는 또 “이미지 생성뿐만 아니라, 생성된 이미지를 수정할 수 있는 기능도 제공함으로써 실제 업무를 수행할 때 이미지를 수정, 보완할 수도 있다”고 소개했다.

특히 사람과 기계의 융합 내지 ‘사용자 친화형 의사소통 도구’라는 관찰도 나왔다. 안랩은 “사람과 기계 사이의 커뮤니케이션은 전통적으로 키보드라는 디바이스를 통해 텍스트가 주로 사용되어 왔지만, 스마트폰의 등장 이후 단말기가 소형화되면서 그런 방식의 커뮤니케이션은 한계에 달했다”고 전제했다. 즉, 그 대안으로 음성이나, 제스처, 펜 등을 활용한 ‘멀티 모달’ 인터페이스가 발전하게 되었다는 얘기다. “여기에 AI 기술의 발달로 음성처리 기술이 획기적으로 발전하면서, 사람과 기계 사이의 커뮤니케이션은 의사소통까지도 가능한 ‘사용자 친화형 기술’로 변모하는 중”이라고 했다.

“인간이 컴퓨터와 직접 대화하는 환경”

즉, 멀티 모달은 “여러 가지 형태와 의미로 컴퓨터와 대화하는 환경”이다. 이에 따르면 ‘모달’ 즉, ‘모달리티(modality)’는 인터랙션 과정에서 사용되는 의사소통 채널이다. “예를 들어, PC 입력을 위한 키보드나 마우스 등이 하나의 ‘모달리티를 위한 디바이스’”라는 설명인데, 이때 ‘모달리티’란 “한 가지 방식의 사람과 컴퓨터 간의 의사소통 채널”이란 것이다.

안랩은 그래서 “바로 접촉하지 않아도 입력 가능한 제스처(동작)나, 음성 입력은 물론, 표정 인식과 시선 인식까지도 각각의 모달리티라 할 수 있다”면서 “전통적인 텍스트 외에 음성, 제스처, 시선, 표정, 생체신호 등 여러 입력 방식을 융합해 인간과 컴퓨터 사이에 자연스러운 의사소통이 가능한 사용자 친화형 기술”의 일환이라고 설명했다.

그 대표적인 사례가 스마트폰이다. 즉, 안드로이드 OS 스마트폰의 경우 텍스트를 입력할 때 자판으로 버튼을 눌러 텍스트를 완성할 수 있다. 그러나 “마이크 버튼을 활성화하면 음성으로 말하는 것을 텍스트로 변환시킬 수 있고, 텍스트 입력을 위해 자판과 음성 모두 이용할 수 있는 것 또한 멀티 모달의 사례”라고 했다.

‘달리’가 공개된 후 이를 둘러싼 시장이 형성되고, 경쟁도 치열해지고 있다. 빅테크들은 텍스트로 이미지를 생성하는 멀티보달 모델을 앞다퉈 개발하고 있다. 2021년 국내에선 LG전자의 ‘엑사원’을 비롯, 카카오브레인의 ‘민(min) 달리’, 그리고 미국 엔비디아가 ‘가우겐(Gaugan)2’를 공개했다.

멀티모달 ‘창작물’에 대한 저작권 논의도

해외 빅테크들 간에도 멀티 모달 개발 붐이 일었다. 2022년에 미드저니가 ‘미즈저니’를 공개했고, 카카오 브레인이 ‘RQ-트랜스포머’과 ‘킬로 1.0’, 구글이 ‘Pati’, 스태빌리티 AI가 ‘스테이블 디퓨전’ 메타가 ‘메이크 어 비디오’ 등을 개발했다. 특히 “스태빌리티 AI사는 모델을 무료로 공개, 활용하는 등 그 덕분에 유니콘으로 성장했다”는 얘기다.

그 과정에서 최근엔 저작권 문제도 부상하고 있다. 즉 AI기반의 창작물이 그 대상이다. 이를 별도의 저작권 대상이 될 창작물로 인정할 것이냐가 문제가 되고 있다. 대표적인 사례로 사진과 이미지 스토리지인 ‘게티 이미지’는 생성AI가 만들어낸 이미지는 기존 작가의 동의없이 만들어진 창작물인 만큼, 법적 분쟁 가능성이 있어 취급하지 않는다. 반면에 ‘셔터 스톡’은 AI콘텐츠를 금지하지 않는다. 아예 ‘달리’를 제품에 통합하기 위해 오픈AI와 계약을 맺고, AI창작물에 대해 예술가에게 보상을 할 계획이라고 밝혔다.

저작권자 © 애플경제 무단전재 및 재배포 금지