합성데이터로 반복 훈련 거듭, 모델 오류·환각, 정확도 저하
고품질 합성데이터 생성 기술 절실, “아직은 그런 기술없어”
[애플경제 전윤미 기자] 현재처럼 데이터를 구하기 어렵다면, 앞으로 7~8년 혹은 10년 내엔 LLM에 쓰일 만한 효용가치가 있는 원본 데이터가 동이 날 것이란 예측이다. 특히 날이 갈수록 저작권이 강화되고, 오픈 데이터 셋에 문제가 많은 데이터가 유입될 수 있다는 우려도 커지고 있다. 오픈AI CEO 샘 앨트먼은 “언젠가 AI가 스스로를 효과적으로 훈련할 수 있을 만큼 좋은 ‘합성 데이터’를 생성할 것”이라고 주장했다.
기본 데이터 라벨링 부실? 합성데이터도 문제많아
이처럼 데이터 고갈의 대안으로 합성데이터가 날로 각광을 받고 있다. 그러나 합성데이터가 최근 대중화될수록, 그 부정확함과 오류와 오염의 가능성 등 그 폐해와 단점도 적지 않다는 지적이다.
그간 사례를 보면, 합성 데이터는 결코 만병통치약이 아니다. 흔히 생성AI와 LLM의 가장 큰 문제점으로 지적되는 ‘쓰레기 입력, 쓰레기 출력’이 합성데이터에서도 그대로 반복된다. 다시 말해 입력 데이터가 저질이나거 엉터리라면, 출력 답변 역시 저질과 오류투성이일 수 밖에 없다. 국내 데이터라벨링 업체인 D사는 “AI모델은 합성 데이터를 생성하지만, 모델을 훈련하는 데 사용된 이러한 데이터에 편향과 한계가 있는 경우 출력 결과물도 비슷하게 오염될 수 밖에 없다”면서 “예를 들어, 기본 데이터에서 제대로 라벨링되지 않은 경우, 이를 재활용한 합성 데이터도 마찬가지로 문제가 생길 수 밖에 없다”고 했다.
매월 수 백 명의 라벨러들을 교육하는 이 업체 관계자는 “(합성데이터의) 문제는 그 범위가 매우 제한적이라는 점”이라고 했다. 즉, “데이터 세트에 예를 들어 50대 남성만 30명뿐이라고 가정해 보자”면서 “그럴 경우 ‘외삽법’이 도움이 될 수 있지만, 그 30명이 모두 중산층이거나 특정 지역 출신이라면, ‘부분을 전체로 일반화’ 하는 것처럼 이들을 유추한 전체 데이터도 모두 그렇게 보일 것”이라며 예를 들었다.
합성데이터의 효용
여기서 ‘외삽법’은 마치 작년 기말 시험에 특정 유형의 문제가 나왔으므로, 금년에도 똑같은 문제가 나올 것으로 유추하는 경우와도 같다. 흔히 데이터가 한정되어 있어, 그 이상의 폭넓은 데이터값을 얻고자 할 때 한계를 넘는 값을 얻고자 할 때 쓰는 방법을 일컫는다. 즉, 예전 경험에서 얻은 데이터를 바탕으로 이와 유사할 것으로 예상되는 다른 데이터를 유추하는 것이다.
그러나 이렇게 얻어낸 합성데이터는 문제가 많을 수 밖에 없다. 실제로 미국 스탠포드의 연구자들이 2023년에 실시한 연구에 따르면, 훈련 중에 합성 데이터에 지나치게 의존하면 품질이나 다양성이 차츰 감소할 수 밖에 없는 모델이 생성될 수 있다. 즉, 반복해서 기존 데이터를 재활용할수록 새로운 시점에 맞지 않는 ‘마모’가 생길 수 밖에 없다. 그래서 실제 세계를 제대로 표현하지 못하는 샘플링 편향이 생긴다. 그 때문에 몇 차례 합성을 반복해서 재활용하게 되면, 결국 모델의 다양성이나 정확성이 떨어질 수 밖에 없다. 물론 이 경우 “실제 세계 데이터를 약간 섞으면, 그런 오류를 완화하는 데 도움이 된다”는 의견도 있다.
합성데이터를 사용한 오픈AI의 최신 생성AI 모델 ‘o1’과 같은 복잡한 모델일수록 더욱 문제가 심각하다. 반복해서 합성데이터를 생성하고 사용함으로써 오류와 부정확한 출력 등 ‘환각’을 생성할 수 밖에 없다. 그래서 합성데이터로 반복 훈련을 거듭할수록 모델의 정확도를 떨어뜨릴 수 밖에 없다.
복잡한 모델일수록 그런 환각은 더욱 심해진다. 특히 ‘o1’과 같은 최첨단의 복잡한 모델일수록, 개발자 스스로가 합성데이터로 인한 결함의 이유조차 정확히 설명할 수 없게 된다는게 전문가들의 지적이다.
환각이 복합적으로 나타나면 그야말로 ‘횡설수설’하는 모델이 생길 수도 있다. 최근 ‘네이처’(Nature)지의 연구논문에선 오류가 많은 데이터로 학습한 모델일수록, 오류가 더 많은 데이터를 생성하며, 그런 피드백을 반복하며, 차세대 모델의 품질을 크게 저하시키는 것으로 입증되었다. 즉 “모델이 세대(데이터를 재활용하는 반복의 횟수)를 거치면서 날로 난해한 지식을 이해하지 못하게 되고, 더 평범해지며 질문과 관련이 없는 답변을 생성한다”는 것이다.
데이터 철저 검토, 큐레이션, 필터링 필수
더욱이 순수한 ‘원시’ 합성 데이터는 더욱 신뢰하기 어렵다는게 개발자들과 전문가들의 중평이다. 그래서 “적어도 건망증이 있는 챗봇이나, 똑같은 이미지 생성기를 학습하는 것은 반드시 피해야 한다”는 조언도 따른다. 안전하고 품질좋은 출력을 위해선 데이터를 철저히 검토하고, 큐레이션과 필터링을 해야 한다. 또 이상적으로는 다른 데이터 세트와 마찬가지로 최신의 실제 데이터와 페어링하는게 중요하다는 지적이다.
이런 노력이 없을 경우 결국 언젠가는 모델 붕괴로 이어질 수 있다는 우려다. 모델의 출력에서 ‘창의성’이 떨어지고 편향이나 오류가 심해져 결국 그 기능이 심각하게 손상된다. 이를 위해 “더욱 심각해지기 전에 문제있는 합성데이터를 식별해내거나, 적용을 중단해야 한다”는 조언이다.
"연구자는 생성된 데이터를 검사하고 생성 프로세스를 반복하며 품질이 낮은 데이터 포인트를 제거하기 위한 보호 장치를 식별해야 합니다."라고 Soldaini는 말했습니다. "합성 데이터 파이프라인은 자체 개선 기계가 아닙니다. 출력은 훈련에 사용하기 전에 신중하게 검사하고 개선해야 합니다."
이런 문제점을 해소하기 위해선 앞서 오픈AI 샘 앨트먼의 말처럼 ‘효과적이고 품질좋은 합성 데이터’를 생성해야 한다. 그러나 고품질의 합성데이터를 생성할 만한 기술은 아직 존재하지 않는다. 그레서 어떤 AI 관련 개발자나 연구자들도 합성 데이터만으로 훈련된 모델을 출시하진 않고 있다. 이에 “미래에도 모델의 훈련이 잘못되지 않도록 (학습과정의) 어떤 부분에서든 인간의 조정과 개입이 필수적”이란 의견도 나오고 있다.
