데이터브릭스 개발, “AI 모델이 스스로 지능 향상 트릭”
강화학습, 합성데이터에 ‘Best-of-N’ 기반 TAO 접목
“인간의 ‘생각’하는 과정과 흡사한 원리 적용”
[애플경제 이지향 기자] 맞춤형 AI 모델을 구축해온 데이터브릭스가 최근 모델 성능 향상 방법인 ‘best-of-N’을 구사, 모델이 스스로 지능을 높여가는 기술을 개발했다. 이는 특히 새로운 원천 데이터가 없어도 AI 모델의 ‘IQ’를 높일 수 있다는게 회사측 설명이다.
이는 마치 공기 펌프로 사람의 뇌를 부풀리듯, AI모델의 추론과 판단 등 지능을 스스로 자가 증폭하도록 한다. 이 회사는 블로그를 통해 “깨끗한 레이블이 지정된 데이터가 없어도 AI 모델의 성능을 높일 수 있는 머신 러닝 트릭을 개발했다.”고 밝혔다.
이 회사가 이런 기술을 개발한 것은 데이터가 부족한 현실을 타개하는 노력의 일환으로 나타난 것이다. 회사측은 “(훼손되지 않은) 깨끗한 데이터가 부족하면 특정 작업을 수행하도록 모델을 미세 조정하는 것이 어렵다”면서 “그럴 경우 프롬프트나 API 에 넣을 수 있는 훌륭하고 깔끔한 미세 조정 데이터가 있을 수 없다”고 지적했다.
이에 데이터브릭스는 기업이 굳이 ‘데이터 품질’에 방해받지 않고 작업을 수행할 수 있는 자체 에이전트를 개발할 수 있게 했다. 이 기술은 엔지니어가 고급 AI 모델의 기능을 개선하는 데 사용하는 몇 가지 주요 기술을 한층 발전시킨 것으로 해석된다.
‘와이어드’는 “특히 좋은 데이터를 얻기 어려울 때 이런 기술적 변용은 더욱 의미가 크다”면서 방법론을 전했다. 이에 따르면 이 방법은 AI 모델이 연습을 통해 개선할 수 있는 방법인 ‘강화 학습’과 ‘합성’ 또는 AI에서 생성한 훈련 데이터를 결합, 고급 추론 모델을 만드는 데 도움이 된 아이디어를 활용한다.
이미 오픈AI, 구글, 딥시크 등 최신 모델은 모두 강화 학습과 합성 훈련 데이터에 크게 의존하고 있다. 데이터브릭스는 이를 더욱 발전시킨 것이다. 즉, 충분한 업그레이드 시도를 하면 지능 수준이 약한 모델도 주어진 작업이나 벤치마크에서 좋은 점수를 받을 수 있다는 사실에 착안했다.
여기서 동원한 방법인 일종의 모델 성능 향상 방인 ‘best-of-N’이다. 이는 결국 AI의 “생각” 과정이 인간의 깊은 사고와 닮도록 유도하는 기술이다. 즉, 여러 개의 답변을 동시에 만들어 놓고, 검증기를 사용해 그중 최고 점수를 받은 답변을 고르게 한다. 쉽게 병렬로 처리할 수 있어서 속도는 빠르지만, 답변들이 비슷한 실수를 반복할 위험도 있다. ‘Best-of-N’은 단순한 문제를 빠르게 해결하는 데 효과적며, 여러 답변을 동시에 생성하기 때문에 시간을 효율적으로 사용할 수 있다.
데이터브릭스는 이같은 best-of-N 결과를 예측하도록 모델을 훈련했다. 그런 다음 보상 모델을 사용, 추가로 별도 레이블이 지정된 데이터가 필요없이 다른 모델의 성능을 개선할 수 있다.
이는 AI가 단순히 답을 생성하는 게 아니라, 문제의 복잡도에 맞게 추론 전략을 조정한다는게 정확한 표현이다. 즉 “사람이 복잡한 문제를 풀 때 다양한 시도를 하고 깊이 고민하는 것처럼, AI도 더 깊고 체계적으로 탐색할 수 있다는 걸 보여준다”는 설명이다.
그런 다음 보상모델을 사용, 주어진 모델에서 최상의 출력을 선택한다. 이렇게 하면 모델을 더욱 미세 조정해 더 나은 출력을 생성하도록 합성 훈련 데이터가 생성된다. 데이터브릭스는 이런 방식을 TAO(Test-time Adaptive Optimization)이라고 이름붙였다. 즉, “비교적 가벼운 강화 학습을 사용, ‘best-of-N’의 이점을 모델 자체에 적용한다”는 설명이다.
이에 따르면 특히 TAO 방법은 더 크고 더 유능한 모델로 확장시킬 수있다. 강화 학습과 합성 데이터는 이미 널리 사용되고 있지만, 언어 모델을 근본적으로 개선하기 위해 이들을 결합하는 것은 비교적 새롭고 기술적으로 어려운 기술이란 평가다.
데이터브릭스는 “이렇게 지능을 높인 언어 모델에 대해 벤치마크인 ‘FinanceBench’에서 TAO 접근 방식을 테스트했다.”고 결과를 소개했다. 이에 따르면 본래 해당 벤치마크에선 메타의 무료 AI 모델 중 가장 작은 라마3.1B가 오픈AI의 독점 GPT-4o 및 o3-mini 모델의 82.1%에 비해 현격히 낮은 68.4%의 점수를 받았다. 그러나 “데이터브릭스가 TAO 기술을 사용한 라마3.1B는 같은 ‘FinanceBench’에서 82.8%의 점수를 받아 오픈AI의 모델을 능가했다.”고 밝혔다.
