‘사람과 같은 사고’의 합성데이터, 전이학습, 데이터 증강 등
작지만 더 정확 ‘LLaMA3’, 구글 전이학습, 테슬라 ‘시뮬레이션’ 등 사례
[애플경제 전윤미 기자] 오류나 환각이 없는 고품질AI는 생성AI 시대가 추구하는 목표와도 같다. 그러나 갈수록 데이터가 고갈되고, 그나마 확보된 방대한 빅데이터를 기반으로 한 AI모델들도 그런 노력에 걸맞은 정확도나 고품질 성능을 보여주지 못하고 있다.
전문가들은 “막대한 학습데이터를 기반으로 성장하던 AI가 최근 데이터 고갈 사태에 직면하고 있다”면서 “AI 모델 학습에 필요한 데이터의 증가 속도가 현재의 데이터 증가 속도를 앞지르면서 2026년경부터는 AI 학습용 데이터가 소진되기 시작할 것”으로 내다보고 있따.
“빅데이터보단 파인데이터”
이에 최근엔 ‘빅데이터’보다는 규모는 작을지언정 잘 정돈되고 정확도가 높은 ‘FINE’ 데이터가 고품질AI엔 더욱 적합하다는 의견도 나오고 있다.
흔히 생성AI는 수 천억개 내지 수조에 이르는 매개변수를 지니고 있다. 그 숫자가 많을수록 성능이 향상되고 정확하다는게 통설이다. 그러나 최근엔 AI 모델의 크기가 반드시 우수한 성능을 담보하지 않는다는 사례들이 나타나고 있다. 예를 들어 2024년 출시된 LLaMA3도 그런 경우다. 이는 2023년 출시된 LLaMA2에 비해 모델 사이즈가 줄었다. 그럼에도 불구하고, 언어이해력이나, 일반 답변 능력, 수학능력 등의 성능은 더 우수한 것으로 알려졌다.
물론 이런 문제를 해결하기 위해 합성데이터 기술이 등장하기도 했다. 그러나 합성데이터는 자칫 모델 붕괴와 같은 부작용을 초래할 위험이 크다는 지적이다. 즉, AI가 만든 합성 데이터로 학습한 AI 모델은 결과물이 오염되는 ‘붕괴’ 현상이 발생할 수도 있다는게 전문가들의 지적이다.
또한 사전학습용 데이터도 오류가 많다. 이는 편견이나 환각 등 AI의 응답 생성에 영향을 미칠 가능성이 크다. 일종의 사회적 편견과 부정확한 데이터가 포함된 답변은 신뢰성 낮은 데이터의 재생산으로 악순환된다. 즉 AI 학습에 활용되는 데이터의 품질이 충분히 확보되지 못할 경우, 부정확하고 일관성 없는 콘텐츠를 생성하는 ‘AI 환각 현상(AI Hallucination)’의 해결이 어려울 것으로 예상된다. 이에 “AI 기술의 지속 가능한 발전을 위해 양질의 데이터 확보가 시급한 시점”이란 설명이다.
‘추론’ 과정 포함, 고품질 데이터로 훈련도
그런 고민 끝에 나온 것이 이른바 ‘사람과 같은 사고’ 과정을 거쳐 탄생한 고품질 합성 데이터다. 이는 AI 성능 향상뿐 아니라, 데이터 고갈 문제 해결에 핵심 자원으로 활용될 전망이다.
‘사람과 같은 사고’ 과정은 일단 AI가 사람처럼 복잡한 문제를 개별 단계로 분해, 자체 생성한 ‘추론’으로 학습함으로써 스스로 개선하는 것이다. 이에 대해 정보통신기획평가원의 구체적인 해설이 특히 눈길을 끈다. 이에 따르면 ‘사람과 같은 사고’는 “틀렸을 때는 실수로부터 배우고, 맞았을 때는 왜 그렇게 답했는지 반복적으로 학습하는 과정”이다.
즉, 방대한 데이터를 기반으로 실시하는 사전학습과 사후학습이 중심이던 지금까지의 학습 관행과는 다르다. 마치 사람처럼 변증법적 사고를 되풀이하며, 문제를 해결하는 ‘추론’ 훈련이란 얘기다.
이같은 ‘추론’ 과정을 포함한 고품질 데이터로 훈련한 AI 모델은 그 규모가 30배나 큰 AI 모델과 유사한 성능을 보인다. 또한 AI 성능 향상의 새로운 잠재력을 증명하고 있다는 설명이다.
또한 “‘추론’ 훈련에 15대나 더 많은 컴퓨팅을 할당하면, 10대나 더 큰 모델을 학습한 것과 같은 효과가 발생한다”는 것을 증명한 연구도 있다. 이는 데이터 고갈 현상을 극복할 방법이기도 하다는 것이다.
이는 또한 “소량의 실제 데이터를 바탕으로 일부 조건을 변화시키거나, 새롭게 생성된 가상의 데이터를 활용하는 방식으로 품질 좋은 데이터를 얻는 방식”이라는 평가다.
또 다른 고품질 데이터 확보 방법들
고품질 데이터를 획득하는 방식으론 또 ‘전이 학습’도 있다. 이는 사전 학습된 모델을 기반으로 기존 모델의 일반적인 특징을 새로운 문제에 적용하는 방식이다. 새로운 데이터나 태스크에 맞게 모델을 재사용할 수도 있다. 이에 대한 구글의 실험이 눈길을 끈다. 이미지넷으로 사전 학습된 인셉션(Inception) 모델을 활용, 피부 병변 분류 모델을 구축하고, 72.1%의 정확도를 달성함으로써 전문 피부과 의사의 평균 정확도인 65.6%를 넘어섰다는 얘기다.
‘데이터 증강’ 기법도 있다. 이는 기존 데이터를 두고 회전, 자르기, 색상 변경 등으로 변경, 모델이 다양한 패턴에 잘 대응할 수 있도록 훈련 데이터의 다양성을 제공하는 것이다. 실제로 테슬라는 자율주행 시스템을 개발할 때 시뮬레이션을 통해 다양한 주행 조건을 생성, 데이터 세트를 10배 이상 확대한다. 이를 통해 도로 주행 상황에서의 인식 정확도가 98%까지 높아졌다는 보고다.
이처럼 데이터 증강은 데이터 수집과 수동 라벨링 작업에 소요되는 인력과 시간을 절약하며, 대규모 데이터 확보에 대한 의존성을 축소한다.
최근엔 ‘전문가 혼합’ 방식도 고품질 데이터를 위한 방안으로 추천되고 있다. 여기서 전문가는 일종의 ‘서브 모델’을 지칭한다. 즉 강점이 있는 여러 모델을 조합, 예측 성능을 향상시키는 것이 특징이다. 실제로 아마존 알렉사는 사용자 발화에 따라 언어 모델을 동적으로 선택, 음성 인식 오류율을 20% 감소한 것으로 알려졌다.
또 비디오에서 빠진 부분이나 가려진 부분을 예측하는 방식으로 학습하는 ‘누락된 영상 예측’ 방식도 쓰이고 있다. 즉, 예측하기 어려운 정보는 버리는 유연성을 발휘, 학습 효율을 1.5~6배까지 향상시킬 수 있다는 것이다.
이처럼 “소량으로도 고품질 데이터의 역할을 하는 ‘파인(FINE) 데이터’는 효율적이고 정확한 학습을 가능하게 하며, AI 기술의 활용 범위를 확장하는 데 필수적”이라는 기대다.
