CNN 기술, GAN, 텐서플루․파이토치, 트랜스포머, BERT, GPT 등
최근 달리(DALL․E)1․2 기반의 ‘멀티 모달’ 기술의 완성체가 ‘챗GPT’
한국지능정보사회진흥원 ‘10년간 AI 10대 사건’도 같은 맥락의 해석

'2022 국제인공지능대전'으로서 본문 기사와 직접 관련은 없음.
'2022 국제인공지능대전'으로서 본문 기사와 직접 관련은 없음.

[애플경제 김향자 기자] 최근 공개된 챗GPT는 지난 2014년 등장한 ‘GAN’ 기술이래 AI기술의 최첨단 결과물이다. GPT 3.5버전을 토대로 한 챗GPT는 사람에 버금가는 수준의 질문에 대한 답변이나, 특정인과 똑같은 음성 모방기술을 과시한다. 이는 특히 지난 10여 년 동안 급속히 발전해온 인공지능 기술이 축적된 결정체라고 할 수 있다.

2012년의 합성곱 신경망(CNN) 기술이 AI기술 개발의 기폭제가 되었고, 이는 그 후 GAN에 이어 AI개발 프레임 경쟁의 결과인 텐서 플루, 파이토치, 자연어 처리모델인 트랜스포머 등이 토대가 되었다. 이를 기반으로 다시 BERT와 GPT 등 첨단 모델이 등장할 수 있었고, 마침내 AI기술의 최첨단 완성체를 미리 짐작하게 하는 달리(DALL․E)와 멀티 모달 시대를 열게 된 것이다.

챗GPT기술은 이같은 기술들의 축적에 다름 아니라는게 전문가들의 평가다. 한국지능정보사회진흥원(이하 ‘진흥원’)이 최근 ‘지난 10여 년의 인공지능 10대 사건’으로 요약하여 그 기술적 배경과 연혁을 소개한 것도 그런 점에서 의미있게 받아들여지고 있다.

10년 전 합성곱 신경망 기술이 기폭제

진흥원은 2012년에 개발된 합성곱 신경망 개발에서부터 최근의 멀티 모달에 이르기까지 이미지와 그래픽을 통해 소상하게 묘사하고 있다.

이에 따르면 오늘날 AI기술의 대도약은 역시 지난 2012년 합성곱 신경망 기술이다. 특히 이를 활용하여 이미지넷 챌린지에서 CNN기반의 딥러닝 알고리즘인 AlexNet이 우승을 차지한 사건도 뚜렷이 기억되고 있다. “이를 계기로 딥러닝에 의한 이미지 처리가 본격적으로 실용화되었다.”는 것이다.

이에 구글, MS 등은 딥러닝 방식을 할용, 이미지 인식 기술경쟁을 본격화했다. 이로써 CNN방식이 이미지 인식기술이 표준으로 떠오르며, 딥러닝 전성시대를 열었다. 구글은 구글넷, 인셉션, 그리고 MS는 레스넷(ResNet) 등을 개발하기에 이르렀다.

진흥원은 그 결과 “현대 인공지능 중 이미지 추적, 객체인식, 대상의 자세를 인식하는 등 이미지와 관련된 대부분의 인공지능은 CNN방식을 기반으로 하고 있다”고 진단하며, “자율주행차, 품질검증 등에 이는 두루 쓰이고 있다.”고 밝혔다.

진흥원 ‘2014년~2022년’ 간의 AI기술 변천사 ‘눈길’

이에 따르면 또 2014년에는 문제의 적대적 생성 신경망, 즉 ‘GAN’이 등장했다. 이는 생성자와 식별자가 서로 대립하며, 마치 ‘정반합’의 개념을 방불케하는 방식으로 데이터를 생성하는 모델이다. 기존에 생성된 AI에 대히 성능이 매우 우수하며, 한층 진화된 DGGAN, starGAN 등의 기반이 되었다. 진흥원은 “생성 AI 분야의 새로운 혁신”으로 평가하고 있다.

물론 이는 딥페이크 등 부작용도 속출하고 있어, 이는 나름의 규제와 제도적 장치로 규율해야할 과제이긴 하다. 그럼에도 그 융용함은 결코 가볍게 볼 수 없다는 평가다.

그 덕분에 AI성능이 향상을 위한 학습용 데이터셋이 부족할 경우 합성데이터(가상데이터)를 생성하여 활용할 수 있게 되었다. 또 이미지 뿐 아니라, 다양한 영역에서도 생성 모델을 널리 활용되고 있다.

진흥원은 또 2015년 개발된 오픈소스 AI 개발 프레임 ‘텐서플로’를 대사건의 하나로 꼽는다. 구글이 인공지능을 개발을 위한 프레임워크를 오픈소스로 공개한 사건이다. 이는 오픈소스 문화에 크게 기여했다는 평가다. 당시 구글은 텐서플로, 메타는 파이토치를 개발, 공개했다.

이로 인해 본격적인 AI개발 프레임의 경쟁이 벌어졌다. 이는 AI를 개발할 때 필요한 각종 수학적 라이브러리를 제공하고, 학습이나 추론 환경을 모니터링하며, 모델을 배포하는 등 개발 전 과정을 지원한다. “현재 전 세계 연구원의 대부분은 텐서플로나 파이토치 중 하나를 사용하여 AI를 개발하고 있다”는 얘기다.

이는 또 “학습 알고리즘(코드)나, 모델을 쉽게 공유할 수 있기 때문에 누구나 선행연구를 손쉽게 찾아서 활용할 수가 있다.”면서 “AI모델 개발과 관련된 문제가 발생할 경우, 커뮤니티를 통한 ‘집단’의 지식과 지성으로 문제를 해결할 수 있게 한다는게 가장 큰 장점으로 꼽힌다.”고 평가했다.

2016년에는 유명한 인공지능 바둑 프로그램인 알파고와 이새돌의 바둑대회가 열렸다. 그 결과 구글 딥마인드가 개발한 알파고가 4대 1로 이겼다. 이 사건 역시 “인공지능 대중화를 앞당긴 결정적 사건”으로 꼽힌다.

챗GPT에 이르게 된 전환점, 자연어처리 모델 ‘트랜스포머’

다음으로 진흥원은 2017년 개발된 자연어처리 모델 ‘트랜스포머’를 역시 오늘의 챗GPT에 이르게 된 기술적 기폭제로 꼽는다. 구글이 개발한 트랜스포머는 기존 RNN구조의 단점을 극복하며 ELMO, BERT 등 여러 모델의 기반이 되었다. 특히 GPT기술의 원천이 되었으며, “언어모델의 혁신적 돌파구”로 평가되었다.

트랜스포머가 등장하기 이전에는 데이터를 순차적으로 단어의 순서에 따라 처리하는 순환신경망(CNN) 방식을 활용했다. “그러나 트랜스포머는 언어 처리의 병열화를 통해 계산의 효율성을 높임으로써, 그간 순차적으로 단어를 학습해온 알고리즘의 한계를 극복한 것”으로 높이 평가되었다.

2018년에는 이른바 ‘자기지도학습(Self-supervised Learning)’이 부각되었는데, 이는 비지도학습의 한 방법으로 AI개발 기술을 한 단계 끌어올린 사건으로 기억된다. 이듬해인 2019년에는 마침내 그런 기술을 기반으로 한 GPT-2 언어모델, BERT 언어모델 등이 등장하면서, 언어모델의 새로운 전환점이 마련되었다.

그리고 이어서 2020년에는 마침내 GPT-3가 등장했다. 이는 무려 1,750억개의 매개변수를 지닌 초대 규모 언어모델이다. 초대규모 모델이 본격화되고, 그 범용성이 부각된 계기가 되었다.

GPT-3이 개발된 후 미국 외에 중국, 한국 등 비영어권 국가들은 모국어 버전의 초거대 모델을 구축하고 있다. 특히 국내에선 네이버가 개발한 한글 버전 언어모델인 ‘하이퍼클로바’는 2040억개의 매개변수를 지니고 있으며, 한국어 집중교육을 위한 것이다. 또 카카오브레인이 KoGPT도 한국어 특화 언어모델로서, 구글 TPU를 활용하거나, 연산속도를 고도화한 것이다.

AI기술의 최절정 ‘멀티 모달’ 기술

LG전자의 ‘엑사원’도 언어와 이미지를 다루는 멀티모달 모델로서, 제조, 금융 등의 전문가를 지향하고 있다. KT의 ‘믿음’은 초거대AI를 제작하는 도구로서, ‘지니TV’ 음성대화 서비스를 제공하기도 한다. SKT의 ‘에이닷’은 사람과 대화하듯, 자연스럽게 소통할 수 있으며, 마치 가족이나 친구처럼 일상의 ‘디지털 메이트’가 되도록 한다는 취지를 담고 있다.

진흥원은 특히 2021년에는 ‘AI반도체 전성시대’가 열렸다고 본다. GPU가 AI반도체의 중심으로 부상했고, 이로써 엔비디아가 글로벌 기업 10위 권에 진입했다. 또 DALL-E, 즉 텍스트의 이미지화(Text to image) 생성 모델의 서막을 알린 달리가 개발, 선보였다. 명실상부한 ‘멀티 모달 모델의 서막’을 열었다는 평가다.

그해 1월 오픈AI는 마침내 텍스트를 이미지로 변환할 수 있는 AI모델인 달리(DALL․E)를 개발, 공개했다. 이는 120억개의 매개변수를 지닌 GPT-3을 기반으로 한 것으로 2억5천만개의 텍스트와 이미지를 쌍으로 학습하는 기술이다. 사물의 의인화나, 서로 관련인 없는 사물을 유기적으로 해석하여 합치는 것도 가능하다. 또 사전에 학습된 모델을 다시 추가로 학습하는 과정을 거치지 않는 ‘제로 샷’ 조건에서도 우수한 성능을 발휘하곤 했다.

그리고 2022년에는 ‘멀티모달의 전성시대’가 열렸다. 달리2를 비롯해 미드저니, 스테이블 디퓨전, 파티(Pati), 이매진(Imagen), 메이크 어 무비(Make a Movie) 등이 잇달아 개발되었다. 그해 4월에 오픈AI는 현실감이나 정확도, 해상도 등을 획기적으로 높인 달리2(DALL․E 2)를 개발, 공개했다. 이는 이미지 생성뿐 아니라, 생성된 이미지를 수정할 수 있는 기능도 제공함으로써 실제 업무를 수행할 때 이미지를 수정, 보완할 수도 있게 한다.

이같은 기술적 토대를 바탕으로 진화를 거듭한 결과가 오늘의 챗GPT기술이라고 할 수 있다. 현재 오픈AI는 오는 4월경 GPT-4 버전을 출시할 것으로 알려져있다. 그럴 경우 지금의 챗GPT 3.5 이상의 또 다른 놀라운 ‘인공의 準인간’이 탄생할 것인지가 관심사다. 지난 10여 년 간 축적되어온 AI기술이 향후 10년 간 어떤 예측할 수 없은 변화를 기할 것인지 두고 볼 일이다.

저작권자 © 애플경제 무단전재 및 재배포 금지