‘대형언어모델’, ‘강화학습’, ‘생성AI’ 등 AI기술 발전을 상징하는 사례로 주목
인간의 시행착오와 흡사한 학습기법, 사람과 기계의 원활한 언어적 상호작용
딥페이크 등 첨단의 합성영상 기술, 인간의 오감을 텍스트나 이미지로 전환
[애플경제 김향자 기자] AI기술은 하루가 다르게 그 수준과 차원을 달리하고 있다. 손쉽게 AI기술의 처음과 끝을 정의하기 어려울 만큼 그 범위와 속도가 빠르고 다양하다. 전문가들도 각자의 과학적 탐구 방식에 따라 다양한 시각에서 AI기술의 근황이나 현주소를 조망하기도 한다. 수원대 홍석우 교수의 경우 그 중에서도 대형언어모델, 강화학습, 멀티모달 학습, 생성AI 등의 기술을 최근 주목받고 있는 대표적인 AI기술로 꼽고 있다. 이는 국내 인공지능 관련 전문가나 IT업체 관계자들도 대체로 의견을 같이 하는 대목이기도 하다.
이같은 관찰은 최근의 AI기술 연구의 핵심을 요약한 것으로 평가할 만하다. 인간 수준의 유창한 언어적 상호작용이 가능하게 하고, 무한 수준으로 AI의 판단력과 지각능력을 키우는가 하면, 딥페이크와 같은 합성영상 기술이 더욱 첨단화하는 가운데, 인간의 시청각 결과를 데이터로 수집, 분석하는 최근의 몇 가지 AI동향을 요약한 것이라고 할 수 있다.
강화 학습(reinforcement learning)
강화학습은 인간의 수준을 훌쩍 뛰어넘는 AI 알고리즘을 탄생하게 한 기술이기도 하다. 지도 및 비지도 학습에 이용되는 훈련 데이터 대신, 주어진 상태(에이전트)에 맞춘 행동의 결과에 대한 ‘보상’을 주는 방식이다. 특정 사건을 위한 수많은 경우의 수 가운데 성공을 거두거나 이루고자 하는 목표에 도달한 경우, 그런 경우의 수를 알고리즘이 깨닫게 하는 방식이다. 특히 게임이나 로봇 제어 등에선 필수적 기법이다.
홍석우 교수는 “데이터 과학자가 의사 결정과 보상 기반 교육에 중점을 두는 기계 학습의 한 분야”로 규정하면서 “학습의 결과로 인한 보상을 최대화하기 위해 (변증법적인 검증과) 행동을 조정함으로써 작동한다.”고 설명했다. 즉, 인간의 시행착오와 흡사한 학습과 교육 방법을 모방한 것이란 해석도 가능하다.
강화학습은 학습의 결과에 대해 그 직전에 둔 일련의 대응 방식, 행동들이 적합했던 것인지 여부를 학습 알고리즘에게 알려 준다. 이렇게 행동의 적합성 여부를 학습 알고리즘에게 알려 주는 것을 ‘보상’ 또는 ‘강화’라고 한다. 이러한 정보를 이용하는 기계 학습이 바로 강화학습이다.
차세대 인공지능 자동대응 시스템을 출시한 Q사 관계자는 “다시 말해 일종의 행동심리학에 기반을 두고, 그 분석 대상인 컴퓨터 프로그램(에이전트)이 주어진 상태에서 자신이 취할 행동을 표현하는 정책을 수립하는 것”이라며 “그 결과 에이전트가 최대의 보상을 받을 수 있는 정책을 수립하도록 학습시키는 것이 강화 학습의 목표”라고 정의했다. 즉 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 또는 행동 순서를 선택하는 기법이라는 얘기다.
생성 AI(Generative Artificial Intelligence)
가트너가 최근 2022년의 대표적인 전략 기술 12가지 중 하나로 이른바 ‘생성AI(Generative AI)’를 꼽으면서 최첨단 AI 학습모델인 생성모델이 주목받고 있다. 이는 지금까지 딥페이크 등으로 악용되긴 했지만, 향후 AI기술의 광범위한 실용화를 위한 핵심기술로 부상할 전망이다. 그래서 ‘차세대 AI기술의 꽃’으로 평가되기도 한다.
기술적으로 보면 생성모델의 대표적인 것 중 하나가 GAN(적대적 생성 신경망, Generative Adversarial Networks)모델이다. 이는 학습 과정에서 주어진 데이터를 만들어 뒤섞고 감추는 기능과, 이에 맞서 데이터를 정확하게 식별하고 구분하는 기능이 상충되며 변증법적 융합을 이루는 방식과 유사하다. 좀더 쉽게 표현하면 GAN은 생성자와 판별자로 구성된다고 할 수 있다. 생성자는 ‘페이크’(속임수, Fake) 데이터를 판별자가 식별할 수 없도록 확률을 높이는 방향으로 학습하며, 이와 반대로 판별자는 생성자의 페이크 데이터를 진짜 데이터와 비교해 이를 식별해 내는 확률을 높이는 방향으로 학습한다. 다시 말해 생성자는 판별자를 속이기 위해 노력하며, 판별자는 생성자에게 속지 않기 위해 노력하는 셈이다.
기술적으로 표현하면 판별자의 판별 모델은 데이터 레이블 간의 차이를 적절하게 구분하는 ‘결정경계’(Decision Boundary)를 를 학습한다. 그래서 데이터가 어떤 레이블을 갖는지 결정하는 모델이다. 반면에 생성자는 데이터의 분포(Distribution)를 학습하여 주어진 데이터가 어떤 분포에 속할 확률이 높은지 결정하는 모델이다.
‘2021스마트팩토리전’에 이런 기술을 머신비전에 접목, 출품한 S사 관계자는 “머신러닝을 뛰어넘는 GAN 기술이 있기 때문에 가능한 일”이라며 “즉 생성모델과 판별모델이 경쟁하면서 실제와 가까운 이미지, 동영상, 음성 등을 자동으로 만들어 내는 진화된 기계학습 방식에 기반을 둔 시스템이 건설과 스마트팩토리에도 점차 도입되고 있다”고 밝혔다.
‘구글 개발자 사이트’에 의하면 생성 모델은 모델의 구성방식에 따라 다양하게 분류할 수 있다. 학습 데이터의 확률 분포를 알고 있는 상태에서 추정하는 ‘노출 모델(Explicit Model)’과 확률 분포를 모르는 상태에서 샘플링을 통해 추정하는 ‘잠재 모델(Implicit Model)이 있다. GAN은 그 중 ’Implicit Model‘에 속한다고 할 수 있으며, 최근 생성모델 연구 과정에서 특히 주목받고 있다.
GAN은 역설적으로 그 동안 딥페이크의 원리가 되는 기술로 알려지며, 오용되기도 했다. 그러나 GAN 모델이야말로 이미지, 비디오, 텍스트 등의 데이터를 생성하고 활용하는 다양한 분야에서 두루 사용되는 기술이다. GAN 모델은 지속적으로 생성의 정확도 등 성능과 기술이 개선, 발달하면서교통, 금융, 의료 등 다양한 분야에서 활용될 것으로 전망되고 있다.
Multimodal 학습
안랩에 따르면 멀티 모달 기술은 최근 구글과 네이버가 이를 적용한 검색 기능을 발표하면서 세간의 관심이 집중되었다. 한 마디로 이는 “여러 가지 형태와 의미로 컴퓨터와 대화하는 환경을 의미한다”는게 안랩의 설명이다. 사람과 기계 사이의 커뮤니케이션은 전통적으로 키보드라는 디바이스를 통해 텍스트가 주로 사용되어 왔다. 그러나 스마트폰의 등장 이후 단말기가 소형화되면서 그런 방식의 커뮤니케이션은 한계에 달했다는게 안랩의 규정이다. 이에, “음성이나, 제스처, 펜 등을 활용한 ‘멀티 모달’ 인터페이스가 발전하게 되었다”면서 “여기에 AI 기술의 발달로 음성처리 기술이 획기적으로 발전하면서, 사람과 기계 사이의 커뮤니케이션은 의사소통까지도 가능한 ‘사용자 친화형 기술’로 변모하는 중”이라고 파악했다.
즉, 멀티 모달은 “여러 가지 형태와 의미로 컴퓨터와 대화하는 환경”이다. 이에 따르면 ‘모달’ 즉, ‘모달리티(modality)’는 인터랙션 과정에서 사용되는 의사소통 채널이다. “예를 들어, PC 입력을 위한 키보드나 마우스 등이 하나의 ‘모달리티를 위한 디바이스’”라는 설명인데, 이때 ‘모달리티’란 “한 가지 방식의 사람과 컴퓨터 간의 의사소통 채널”이란 것이다.
앞서 홍 교수는 Multimodal 학습에 대해 “인간의 5가지 감각기관으로부터 수집되는 다양한 형태의 데이터를 사용하여 모델을 학습하는 것”이라고 명쾌하게 설명하고 있다. 즉 인간의 오감을 통해 수집된 데이터를 텍스트나 이미지로 바꿔주는 기능이다.
대형 언어 모델(Large Language Model, LLM)
이는 다양한 주제를 놓고 AI가 사람과 대화를 나누거나, 텍스트나, 비디오, 오디오 등 데이터 형태와 관계없이 사람이 원하는 정보를 AI가 제공하는 대화형 인터페이스 기술이다. 이를 위해 최근엔 방대한 텍스트 데이터를 기반으로 학습한 딥러닝 알고리즘이 실용화되고 있다. 이는 이메일이나 포털 검색, SNS 포스팅 등 인간의 언어적 디지털 상호작용을 더욱 원활하게 한다. 또한 사용자가 이해 할 수 있는 텍스트를 단락 단위로 생성하기도 하면서, 코딩, 작곡 등 다양한 분야로 확장되고 있다.
이미 빅테크 등은 이를 상품화하여 출시하고 있다. 구글의 람다(LaMDA)는 대표적인 대형 언어 모델(Large Language Model, LLM)로 꼽힌다. 이는 음성인식비서나, G-mail, Docs, 구글 드라이브, 검색 엔진 포털 등 구글의 주요 제품에 적용되고 있다. 오픈AI의 GPT-2, GPT-3 역시 그 대표적 사례로 꼽힌다. 메타도 콘텐츠 관리와 번역용으로 자체 LLM을 개발했으며, 마이크로소프트는 GPT-3을 자사 제품군에 통합하기 위해 GPT-3에 대한 독점 라이선스 계약을 체결했다
