‘데이터 전처리, 특징 추출, 공통표현 학습, 통합 분석’ 절차
CNN, ‘코-어텐션’, 트랜스포머, VAE 등으로 통합, 표현공간에 생성
[애플경제 전윤미 기자] 멀티모달AI 기술은 AI솔루션의 지평을 바꿔놓고 있다. 특히 멀티모달AI의 핵심기술인 멀티모달 데이터 통합 기술이 날로 발달하면서, 이는 더욱 고도화하고 있다. 멀티모달은 텍스트와 이미지, 음성, 영상 등을 통합해 새로운 콘테츠를 출력함으로써 생성AI의 진수를 선보이는 기술이다. 이를 위해 서로 다른 데이터 유형을 결합, 분석하고 그 특징을 추출해 하나의 콘텐트로 표현할 수 있어야 한다.
이에 관한 연구를 진행해온 김말희 한국전자통신연구원 책임연구원은 이를 화가 세잔의 기하학적 접근법에 비유, 시선을 끌기도 한다. 그는 “세잔은 사물의 본질을 탐구하기 위해 모든 형태를 단순한 기하학적 형태로 환원시키는 접근법을 사용했다”며 “이는 사물의 핵심적인 특징을 추출해 표현하려는 시도로서, 다양한 데이터 유형을 공통된 표현 공간으로 투사시켜, 복잡한 데이터를 단순화하고 핵심적인 특징을 추출해 분석하는 멀티모달 AI 기술과 닮았다”고 했다. 즉 “서로 다른 데이터 간의 의미와 관계를 더 깊이 이해하려는 점에서 공통적”이란 얘기다.
이런 비유에 대한 판단은 각기 다르겠지만, “다양한 데이터 유형을 통합하면 상황에 대한 더 깊고 포괄적인 이해가 가능해진다.”는 점에선 충분히 수긍할 수 있는 대목이다. 이를 위해서 역시 중요한 것은 ‘데이터 유형의 통합’이다. 즉 ‘세잔이 모든 형태를 단순한 기하학적 형태로 환원’시키듯, 공통된 표현 공간으로 투사시킬 만큼, 복잡한 데이터를 단순화하고 핵심적인 특징을 추출하는게 중요해진다. 데이터 통합 기술이야말로 멀티모달AI가 작동할 수 있는 본질적 개념이다.
복잡한 데이터 단순화, 특징 맵핑
최근 이에 관한 ‘기술표준이슈’ 논문을 공개한 김 책임연구원의 분석에 따르면 데이터 통합은 ▲데이터 전처리, ▲특징 추출, ▲공통표현 학습, ▲통합 분석 등의 절차를 거친다.
우선 다양한 데이터 유형을 통합하기 위해선 각 데이터 유형에 적합한 전처리 과정이 필요하다. 텍스트를 토큰화하고, 이미지나 영상은 해상도를 조정하거나, 프레임을 추출하는 등의 과정이 이에 해당한다.
그런 다음엔 데이터마다 각기 다른 중요한 특징을 추출한다. 텍스트의 경우 단어에 내재된 임베딩값을 추출한다. 사진 또는 이미지로부턴 객체 인식 기술인 합성곱신경망(CNN) 기술과, 객체 인식과 분류를 한꺼번에 함으로써 연산 속도를 높여주는 YOLO(You Only Look Once)를 통해 특징을 추출, 맵을 구성한다.
이를 바탕으로 다시 다양한 데이터 유형을 공통된 표현 공간으로 맵핑해 결합하는 과정을 거치게 된다. 이는 멀티모달 딥러닝 모델에 의해 가능하다. 이 모델은 서로 다른 양식 간의 관계를 학습하고, 공통된 표현을 통해 데이터를 결합하는 역할을 한다. 마지막으로 통합 분석과정을 거친다. 즉, 공통적인 표현을 추출해 결합된 데이터에 대해 다시 예측과 분류, 분석 작업을 거치게 된다.
이같은 과정을 위한 대표적 멀티모달 AI기술로 ‘ViLBERT’(Vision-and-Language BERT)를 들 수 있다. 트랜스포머를 접목한 구글의 자연어 처리 모델인 BERT를 기반으로 한 ‘VilBERT’는 텍스트와 이미지를 함께 처리, 이들 간의 상호관계를 이해하도록 한다. 각 모덜리티별로 스트림을 구분,처리 과정을 다르게 할 수 있도록 하고, ‘co-attention transformer layer’를 사용해 각 모달에서 추출한 표현들 사이의 관계를 학습할 수 있도록 하는 것이다. 각각의 모달리티에서 생성된 시각적 표현과 언어적 표현들이 결국 최종적으로 출력되게 한다. 이미지와 텍스트 데이터를 동시에 처리, 상호작용을 학습할 수 있도록 확장한 모델이라고 할 수 있다.
개별 모달별 학습, 하나의 표현공간에 처리
데이터 통합은 각각의 모달에 대한 학습과, 이를 하나의 표현공간으로 처리하는 과정으로 요약할 수 있다. 즉, 텍스트, 이미지 등 개별 양식에 대한 학습을 한후, 다시 멀티모달 데이터를 이용해 이들 양식을 하나의 표현 공간으로 임베딩하는 것이다.
그 과정에서 텍스트와 이미지 간의 상호관계를 학습하기 위해 두 개의 분리된 트랜스포머(Transformer) 모듈을 사용한다. 또한 양식 간 정보 교환을 위해 코-어텐션(Co-attention) 메커니즘을 적용한다. 이를 통해 ‘ViLBERT’는 텍스트와 이미지가 통합된 표현을 생성할 수 있게 된다.
이처럼 데이터 통합은 각 데이터마다의 특징과 양식별로 전처리하고, 그 특징을 추출해 임베딩을 생성하는 것으로 요약할 수 있다. 즉 “생성된 양식별 임베딩과 멀티모달 데이터를 이용해 이미지와 텍스트 양식에 대한 공통의 표현을 학습하는 것”이라고 할 수 있다. 여기서 ‘임베딩(Embedding)’은 고차원 데이터를 연속적인 저차원 벡터 공간으로 변환하는 기술을 의미한다. 이를 통해 “데이터의 의미나 유사성을 보존하면서, 모델이 처리하기 쉽게 만드는 것”이란 설명이다.
이런 과정을 거쳐 통합된 데이터 상태를 바탕으로 이미지를 캡셔닝하고, 이미지-텍스트 매칭과 같은 다운스트림 작업이 진행된다.
멀티모달 AI는 이처럼 다양한 데이터 유형을 통합하는 기술이 날로 발달하면서, 빠른 속도로 진화하고 있다. 이를 통해 모델 구조가 날로 진화하고, 효율적인 학습 방법을 구현하며, 대규모 데이터셋을 활용할 수 있다.
특히 ‘트랜스포머 모델’이 큰 변수가 되고 있다. 이는 자연어 처리 기술의 혁신을 유도했고, 멀티모달 데이터에 적용되고 있다. 앞서 인용한 ‘ViLBERT’나, ‘클립(CLIP)’, ‘달리’ 등은 이같은 트랜스포머를 바탕으로 하고 있다. 김 책임연구원은 “ViLBERT와 오픈AI의 ‘클립’은 이미지와 텍스트 쌍을 사용해 훈련된 모델”이라며 “특히 이미지와 텍스트의 의미를 이해하는 능력에 탁월하고, 텍스트와 이미지의 임베딩을 공통된 공간으로 원활하게 맵핑할 수 있다”고 장점을 부각시켰다.
GAN 적용한 ‘이미지바인드’ 등 신개념 모델도 출시
특히 오픈AI의 ‘달리’는 ‘소라’와 함께 멀티모달의 대명사격라고 할 만큼, 독보적인 기술력을 바탕으로 하고 있다. ‘달리’는 텍스트를 기반으로 이미지를 생성할 수 있다. 텍스트와 이미지 간의 복잡한 상호관계를 학습, 스스로 창의적인 콘텐츠를 생성할 수 있다. 그 과정에서 트랜스포머 모델로 텍스트를 이해하고, VAE(Variational Autoencoder)를 통해 이미지를 생성할 수 있다.
이 밖에도 GAN(적대적생성모델)을 비롯한 다양한 딥러닝 기술을 활용한 멀티모달 AI모델들도 출시되고 있다. 예를 들어 ‘이미지바인드(ImageBind)’는 텍스트, 이미지/비디오, 오디오, 깊이, 열 등 6가지 데이터에 대한 공통된 표현을 학습할 수 있다.
김 책임연구원은 “최근엔 또 입력과 출력 양식이 다른 ‘크로스 모달’ 형태도 등장했다. 또한 단일 양식을 입력해도 다중 양식 출력을 생성할 수 있고, 그 반대의 경우도 가능하다.”며 “ 또한 다중 양식 입력을 기반으로 다중양식 출력을 제공하는 형태도 있다”고 전했다.
