AI모델 학습용 ‘인간의 데이터’, 더 이상 새로운 것 생성 한계
써먹은 데이터 변조, 우려먹는 ‘합성데이터’ 절대 의존
AI품질 저하, “결국 대형 모델은 한계, 소형AI로 방향 전환” 목소리

데이터에 의한 AI모델학습 이미지. (사진=테크리퍼블릭)
데이터에 의한 AI모델학습 이미지. (사진=테크리퍼블릭)

[애플경제 김홍기 기자] 데이터 라벨링을 주로 하는 스타트업인 K사의 조 모 대표는 “AI 기술 발전의 가장 큰 관건이 품질좋은 데이터라면 갈수록 합성데이터에 많이 의존하는 현재 업계 현실은 매우 우려되는 상황”이라며 “저질의 부정확한 데이터로 인해 AI의 품질에 문제가 생기는데, 이는 결국 시간이 흐를수록 AI훈련에 필요한 고품질 데이터를 구하는게 쉽지 않아 생기는 현상”이라고 했다. 조 대표는 그러면서 “이는 마치 금맥을 찾는 ‘골드 러시’가 결국 금이 고갈됨으로써 사라지는 이치와도 같다”고 덧붙였다.

‘데이터 금광’ 고갈로 AI ‘골드 러시’도 중단?

조 대표의 말처럼 실제로 생성AI를 훈련, 학습시키는데 필요한 텍스트나 데이터가 갈수록 비용이 많이 들면서, 구하기도 어려워지고 있다. 그야말로 ‘데이터 고갈’ 시대를 예고하는 셈이다.

쳇GPT와 같은 인공 지능 시스템의 풀질은 사람들이 온라인에서 작성하고 공유한 수십조 개의 단어를 얼마나 스마트하게 변주하느냐에 달렸다. 그러나 AI기술이 발달할수록 그런 수십조개의 단어, 즉 데이터 중엔 더 이상 새로운게 드물어지고, 인류 역사가 그렇듯이 유사하거나 똑같은 뜻과 패턴을 지닌 데이터가 반복, 순환된다는게 문제다.

이런 고민은 이미 해외 전문가들 간에도 본격적으로 일기 시작했다. 최근 AP통신에 의하면 연구기관인 ‘Epoch AI’는 아예 “2026년에서 2032년 사이에 AI 언어 모델에 대해 ‘공개적’으로 사용 가능한 학습용 데이터 공급이 소진될 것”이라고 단언했다. 여기서 ‘공개적’이라는 것은 유료든 무료이든 간에 저작권 시비가 없이 자유롭게 사용할 수 있는 데이터를 말한다.

이같은 연구 조사를 이끈 타마이 베시로글루라는 연구원은 이를 유한한 천연 자원이 고갈되는 현상에 비유했다. 그는 “문자 그대로의 ‘골드러시’에 비유할 수 있다”면서 “AI 개발과 학습이 인간이 만든 텍스트의 비축량을 고갈시키면 더 이상 현재와 같은 AI발전 속도를 유지하기 어려울 것”이라고 AP통신에 밝혔다.

데이터 센터. (출처=슈나이더 일렉트릭)
데이터 센터. (출처=슈나이더 일렉트릭)

‘비공개 데이터’ 무리하게 도용하는 사례 늘어날 듯

비단 이런 보도가 아니더라도 이미 오픈AI, 구글, MS 등 빅테크들은 AI의 대규모 언어 모델을 훈련하기 위해 고품질 데이터 소스를 확보하기 위해 비싼 값을 마다않으며 안간힘을 쓰고 있다. 장기적으로 보면 AI 개발의 현재 속도를 유지할 만큼 새로운 블로그나, 뉴스 기사, 소셜 미디어 콘텐츠가 계속 생성될 가능성은 높지 않다는게 전문가들의 예상이다. 그러면 결국 AI 개발사들은 이메일이나 문자 메시지와 같이 현재는 비공개 사유물로 간주되는 민감한 데이터를 활용하지 않을 수 없을 것이다. 이는 결국 규제당국으로부터 개인정보보호 위반 등 위법행위로 지목되어 제재를 당할 수 밖에 없다.

이를 피하기 위해선 기존의 합성데이트를 활발히 이용할 수 밖에 없다. 기존 AI챗봇이 이미 학습해서 생성해낸 ‘중고 데이터’를 다시 합성, 변조시키는 합성 데이터에 의존할 수 밖에 없게 되는 것이다. 그 결과 AI 개발은 정체되고, 품질은 떨어지게 된다.

이같은 ‘데이터 병목’ 현상으로 인류가 보유한 데이터 양에 대한 제약이 발생하기 시작하면더 이상 AI모델을 효율적으로 확장할 수 없다. AI성능을 확장하고 출력 품질을 향상시키는 가장 중요한 방법이 막히는 셈이다.

“앞으로 2~8년 내 새로운 학습용 데이터 고갈”

일부 전문가들은 이런 현상이 지속될 경우 빠르면 2026년경이면 AI품질을 향상시키는데 절대적인 고품질 텍스트 데이터가 소멸될 것이라고까지 한다. 그렇게 되면 AI개발자들은 이미 보유하고 있는 데이터를 더 잘 활용하거나, 때로는 동일한 소스에 대해 여러 번 ‘오버트레이닝’할 수 있게 해주는 새로운 기술을 개발하는 상황도 벌어질 수 있다. 앞서 Epoch AI는 “그러나 이 역시 한계가 있으며, 결국 향후 2~8년 내에 공개 텍스트 데이터가 고갈될 것으로 예상된다”고 했다.

본래 컴퓨팅 성능은 방대한 인터넷 데이터 저장이 가장 핵심적인 요소다. 그런 연구에 따르면 AI모델용 텍스트 데이터는 연간 약 2.5배 성장해온 반면, 컴퓨팅은 연간 약 4배나 성장했다. 실제로 메타가 곧 출시할 예정인 라마(Llama) 3 모델의 가장 큰 버전의 경우 단어 한 조각을 나타낼 수 있는 토큰을 무려 15조 개나 훈련한 것으로 전해졌다. 그런 만큼 ‘데이터 병목’ 현상이 심각하지 않을 수 없다는 주장이다.

물론 이에 대해 약간 다른 시각의 반론도 있다. 즉, “반드시 더 큰 모델을 훈련할 필요가 있느냐”는 것이다. 즉 더 숙련된 AI 시스템은 오히려 범용이 아닌, 특정 작업에 더 특화된 훈련 모델에서 비롯될 수 있다는 주장이다. 그런 소규모의 특화된 모델이 미래 AI기술의 주축을 이뤄야 한다는 것이다.

그렇지 않고 지금처럼 합성모델, 즉 이미 AI 시스템이 생성했던 것과 동일한 데이터를 다시 출력해서 훈련하는 것은 자칫 ‘모델 붕괴’로 이어지기 십상이란 지적이다. 이는 마치 “종이를 복사한 다음, 다시 그 복사본을 복사할 때 발생하는(선명도가 떨어져서 잘 안보이는) 것과 같아서, 일부 정보를 잃게 될 수도 있다”는 것이다. 뿐만 아니라 이는 AI모델이 실수, 편견, 불공정성을 더욱 심화시킬 것이란 우려다.

샘 앨트먼 “합성데이터 의존 경계”, 데이터 고갈 우려

그래서 “AI 기업은 인간이 생성한 콘텐츠가 어떻게 계속 존재하고 계속 접근할 수 있는지에 대해 우려해야 한다”는 목소리가 높다. 또한 AI 모델에 필요한 텍스트를 생성하기 위해 수백만 명의 인간(저작권자)에게 비용을 지불하는 것은 더 나은 기술 성능을 이끌어내는 현명한 방식이 아니라는 지적도 있다.

이미 오픈AI의 샘 앨트먼도 합성모델에 대한 지나친 의존이나, 무한정 데이터를 수집하는라 드는 과다한 비용에 대해 우려한 바 있다. 그는 차세대 GPT의 대형 언어 모델 훈련 작업을 시작하면서 “이미 훈련을 위해 많은 합성 데이터 생성을 실험했다”고 전했다.

그러나 “필요한 것은 고품질의 데이터인데, 품질이 낮은 합성 데이터가 많다”면서 “모델을 훈련하기 위해 수천억 개의 합성 데이터 토큰을 생성하고, 이미 생성된 토큰을 또 다시 같은 모델에 입력하는 것이라면 매우 이상한 일이며, 비효율적인 것”이라고 꼬집었다. 이처럼 AI기술 리더들부터가 ‘데이터 병목’ 현상과 합성데이터에 대한 의존을 경계하면서 새삼 ‘소형 모델’의 효용성이 다시 부각되고 있다. 무한한 데이터를 욕심내기보단, 특정 용도의 특화된 소형 모델 학습으로 전환해야 한다는 주장이다.

저작권자 © 애플경제 무단전재 및 재배포 금지