확산모델, 자기회귀모델도 다수, LLM·VAE는 美, 확산모델은 中이 압도적
5개 생성AI 모델 특허 中, 美, 한국 순…한국은 GAN 모델이 다수
“한국, 파운데이션 모델 없이, 챗GPT 도입 솔루션 치중 한계” 지적도
[애플경제 전윤미 기자] 다양한 형태의 생성AI 기술특허가 폭증하고 있다. 미국과 중국이 선두를 달리면서, 한국은 이들에겐 크게 못미치는 상황이다. 그런 가운데 최근 수 년 간 특허 유형을 보면 5가지 대표적인 모델이 주를 이루고 있어 주목된다. 적대적생성신경망(GAN, Generative Adversarial Network) 모델이 가장 많고, 변이형 오토 인코더(VAE, Variational autoencoder)모델이 그 뒤를 잇고 있다. 이어서 대규모언어 모델(LLM), 확산 모델(diffusion model), 자기회귀모델(auto-regressive model, AR)과 같은 다양한 유형의 생성AI 모델 특허가 증가하고 있다.
산업기술진흥원에 따르면 특히 GAN 특허는 지난 2023년까지 10년 간 약 9,700건에 달했다. 2023년 한 해에만 약 2,400건의 특허군이 공개되었다. 2위인 변이형오토인코더(VAE)는 약 1,800건, 3위인 대규모언어모델(LLM)은 1,300건의 신규 특허군을 공개한 것으로 집계되었다.
5가지 모델이 생성AI 기술의 핵심
모델 상위를 차지하는 이들 5가지 모델이 현재의 생성AI 기술의 핵심이라고 할 수 있다. 그 중 GAN은 이미 잘 알려져있다시피, ‘생성자’에 해당하는 신경망과, ‘검증자’격인 신경망이 서로 교차 검증을 하는 원리다. 이들 두 신경망이 서로 경쟁적으로 생성하고 검증하도록 하는 ‘비지도 학습방법’을 통해 이미지 혹은 텍스트가 원본과 일치하는지를 구분한다. 이를 통해 결국 원본과 똑같은 텍스트나 이미지를 생성하게 되는 것이다.
VAE는 특정 이미지가 입력되면, 그로부터 뚜렷한 특징들을 추출해 일종의 확률 분포를 만든다. 이를 바탕으로 확률값이 높은 특징을 강조하면, 원본 텍스트나 이미지에 가장 가까운 형태를 만들 수 있다. 좀더 구체적으로 보면, 입력된 이미지의 특성을 ‘Latent vector z’에 담고, 이를 통해 원래의 특성과 비슷하지만 전혀 새로운 이미지를 생성하는 것이다.
자기회귀모델은 단적으로 말해 “과거의 값이 현재의 값에 영향을 미친다”는 것을 전제하고, 과거 값과 현재 값의 관계를 정형화한 모델이다. 이는 시계열 데이터의 수학모델의 일종이며, 시간이 지난 후 나타날 현실의 모습을 좀더 정확히 묘사하기 위해, 오류 기법의 학습을 위한 ‘백색 소음 값’을 삽입하기도 한다.
확산모델은 일종의 매개변수를 활용, 일정한 시간이 지난 후, 원래의 데이터와 일치하는 모형을 생성하는 것이다. 즉, 사전에 학습을 한 후, 학습한 것과 유사한 이미지나 텍스트를 다시 생성해내는 것이다. 일종의 추론 기술을 통해 원래의 데이터와 흡사한 확률 또는 가능성에 따라 미래 동작이나 유형을 예측할 수 있는 것이다.
지난 10년 GAN특허가 압도, 최근엔 LLM 성장세 빨라
이들 중에서 지난 10년동안 GAN 특허의 성장률이 가장 높았다. 그러나 2020년이 지나면서 성장세가 둔화된 것으로 나타났다. 이에 반해 2021년 이후는 ‘확산모델’과 LLM 관련 특허가 폭증하고 있는 것으로 나타났다. 특히 오픈AI가 2022년 초 챗GPT를 개발한 후 생성AI붐이 일면서 LLM에 대한 관심이 크게 높아진 덕분으로 해석된다.
반면에 VAE 모델과 자기회귀모델 역시 GAN 모델처럼 특허 증가세가 둔화되고 있다는 설명이다. 특히 지난 10년 동안 자기회귀모델의 특허 증가 속도가 가장 둔화되었다. 이는 특허 등록된 생성AI 모델 간에 일부 내용이 중복되는 일이 비일비재하고, 일부 특허 모델은 두 개 이상의 모델 특성을 지니는 등 사례가 원인으로 작용한 것으로 분석되고 있다.
앞서 산업기술진흥원에 의하면 같은 LLM끼리 다른 모델과 성격이 중복되는 부분이 있다. 예를 들어 LLM은 그 특성상 자기회귀모델과 같은 성격을 띠기도 하지만, 모든 자기회귀모델이 다 LLM에 해당하지는 않는 경우가 많다. 이런 특성으로 인해 쵝슨 LLM의 인기가 늘어나면서, 최신 특허군일수록 그냥 ‘LLM’이란 용어를 사용하는 빈도가 많아진 것으로 해석된다. 다시 말해 이로 인해 ‘자기회귀모델’의 성장 동력이 약해졌다고 해석할 수도 있는 셈이다.
빅테크 등 기업들의 특허 행태도 이런 특허 생태계에 변화를 가져다주는 원인이다. 원래는 한 가지 생성AI모델 특허에 집중하는 경우가 대부분이었다. 그러나 최근에 와선 중국의 텐센트, 미국 알파벳(구글 모기업) 등과 같이 여러 모델별로 특허를 따로 출원하는 경우도 늘어나고 있다.
실제로 5가지 생성AI 모델 중 VAE와 유사한 디코더 기반 LLM 특허군에서 텐센트가 1위, 바이두가 2위를 차지하고 있는 게 대표적이다. 이들 두 기업은 ‘확산 모델’ 유형에서도 선도적 입지를 차지하고 있다. 종래 한 가지 유형의 모델만 주력하던 관행에서 벗어난 것이다.
심지어 중국의 ‘핑안보험’사의 경우 5가지 생성AI 모델 유형 모두에 대한 특허를 다수 갖축소 있다. 떠 ‘중국국가전망공사(State Grid)’는 GAN 특허군 분야에서 선두를 달리고 있다.
또한 알파벳(구글)은 최근 LLM 관련 특허군의 수를 대폭 확대하는가 하면, VAE 모델에서도 세계 2위를 차지하고 있다. 또한 IBM은 VAE 특허군에서 1위를 차지하면서, GAN모델에서도 중국 바이두에 이어 2위에 오르고 있다.
최근 모델별 따로 출원, 모델 간 특성 중복도 많아
산업기술진흥원은 “대학이나 연구기관도 기업과 마찬가지로 대체로 한 가지 유형의 모델에 대한 특허를 출원한다”며 이들이 가장 선호하는 유형으로 GAN을 꼽았다. 세계 생성AI 특허 상위 국가별 특허군 수에서도 GAN 분야가 다른 모델 유형을 압도하고 있다.
전체적으로 보면 5개 생성AI 모델 모두 중국이 우위를 점하고 있다. 특히 확산모델 분야에선 중국이 미국 등 다른 나라보다 유독 크게 앞서가고 있다. 그런 가운데 중국의 선도적 입지는 확산모델에서 특히 두드러지고 있으며, 자기회 모델의 점유율도 상승세에 있다. 실제로 세계지적재산권기구(WIPO)에 따르면 중국은 지난 10년 간 확산모델 분야에서 특허 분야에서 2위를 차지한 미국(35건)보다 14배 이상 많은 500건의 특허를 기록했다.
이에 비해 미국은 VAE와 LLM 분야에서 우수한 것을 평가된다. 이에 비해 중국의 저장대학은 확산모델, 칭화대학은 LLM 분야에서 가장 많은 특허군을 공개했다. 또 중국과학원의 경우 GAN, VAE, 자기회귀모델 유형 모두에서 선도적 입지를 다지고 있다는 평가다.
한편 한국의 경우 생성AI 특허의 대부분이 GAN모델에 집중되고 있다. 이에 비해 일본의 생성AI 특허군 다수는 5가지 핵심적인 생성AI 모델과 연결되기 힘들다는 평가다. 또 인도는전체 생성AI 특허군 중 GAN 특허군의 비중이 상대적으로 높고, 영국과 독일의 경우 GAN 이나 VAE 모델에 속하는 특허군이 다수를 이루고 있다.
