딥시크 R1의 ‘CoT, RL, 증류’에 새삼 ‘주목’

점차 글로벌 AI업계 개발과정의 학습·배포 표본으로 확산? 단계적 ‘생각’ 단계 파악, 강화학습 GPRO로 추론 능력 향상 ‘증류’ 통해 고성능 모델→경량화, 최저 비용, 최고 성능 구현

2025-04-14     전윤미 기자
딥시크 R1모델 배포를 시사하는 이미지. (출처=게티이미지)

[애플경제 전윤미 기자] 지난 1월 딥시크 등장 이후 글로벌 AI기술 개발도 새롭게 가속도가 붙고 있다. 4월 들어서도 오픈AI의 챗GPT-4.1 혹은 GPT 4.5가 예고되는 가운데, 구글 제미니와 비오(Veo) AI 모델 통합, 그리고 아마존의 실시간 AI 음성 솔루션인 노바 소닉(Nova Sonic) 등이 줄을 잇고 있다.

딥시크의 독창적인 방법론이 이런 추세를 더욱 가속화시킨 사실은 부인할 수 없다. 그런 점에서 딥시크 추론 기술인 R1의 핵심 요소 세 가지, 즉 CoT(Chain of Thought, 생각의 사슬), RL(Reinforcement Learning, 강화학습), distillation(지식 증류) 등에 대한 세인의 관심도 높아지고 있다.

CoT 통해 “모델의 생각 방식 파악”

딥시크는 무엇보다 AI가 사용자 프롬프트에 대한 답변 과정을 보다 명료하게 사슬처럼 엮어 파악할 수 있게 한 점이다. 기존 LLM이 과연 어떤 ‘생각’의 과정을 통해 질문에 대한 답변을 구해내는지를 알 수 없었다. 그런 복잡하고 확률적인 과정이 외부로 드러나지 않아 사용자로선 어떤 방식의 사고와 판단으로 그런 결론에 도달했는지 알기 어렵다.

그러나 딥시크 R1은 언어모델이 논리적 사고 과정을 단계별로 서술하도록 유도하는 CoT 방식을 사용했다. 이에 대해 자본시장연구원의 노성호 연구원은 “수학 문제를 풀 때 단답형의 출력물을 작성하는 대신에, 문제를 푸는 과정을 단계별로 서술하도록 유도하는 방식”에 비유했다. 단순히 공식에 꿰어맞추는 것에 앞서, 그런 공식이 도출되는 과정을 보여주는 셈이다. 이를 통해 답변이 한층 정확해지고, 특히 “사용자가 모델의 추론 과정을 볼 수 있도록 하는 접근법”이란 설명이다.

딥시크 R1 화면. (출처=퓨처)

이처럼 딥시크 R1 모형은 CoT 방식을 적용, 단순히 정답을 출력하는 것을 넘어서 모델 스스로가 사고 능력을 자가 발전, 향상시키는게 강점이다. 프롬프트마다 적합한 답변을 구할때마다 매번 더 ‘똑똑해진다’는 원리다. 그래서 “기존의 언어모델에 비해 한층 논리가 정연하고, 수학 등에서도 정확하고 유용하다”는 평가다.

딥시크는 특히 업계에 알려진 CoT 방식의 한계도 RL(강화학습)으로 극복했다. CoT는 이미 오픈AI의 ‘o1’ 모형 등 고성능 추론 모형에도 적용, 그 뛰어난 성능이 입증되고 있다. 그러나 이는 스스로 생각과 사고능력을 키워나가는 만큼, 기존 언어모델보다 한층 많은 학습량이 필요하므로, 연산에도 많은 시간과 비용이 소모될 수 밖에 없었다는 지적이다.

‘GPRO’로 정답 가까운 답변 반복 학습

이를 극복하기 위해 딥시크는 RL의 일종인 ‘Group Relative Policy Optimization’(GRPO, 상대적 그룹 정책 최적화) 기법을 도입했다. 이는 언어모델이 주어진 프롬프트에 대해 매번 반복적으로 답을 구하되, 그런 과정에서 비교적 정답에 가까운 답변을 스스로 학습하며 추론 능력을 향상시키는 방법이다.

이는 답변 그룹 내의 평균적인 변화와 비교, 가장 합리적인 업데이트를 수행하는 식이다. 만약 매번 답변의 변화량이 클 경우, 그 중 평균값에 맞춰 조정하므로 과도한 변화로 인한 오류나 오답을 최소화할 수 있다. 이는 강화학습 과정에서 데이터 효율성을 극대화하는 데도 큰 도움이 된다.

예를 들어, 여러 개의 대상을 제어해야 할 때, 비슷한 변화율을 보이는 대상들을 그룹으로 묶어 이들 간에 상대적으로 비교, 학습함으로써 한층 일관된 패턴을 알아내고 정확한 답변을 구할 수 있다. 즉, 개개의 대상을 개별적으로 탐색하는게 아니라, 유사한 특성의 그룹으로 묶어 그 평균적 행동을 학습할 수 있는 것이다.

만약 로봇이 물건 집기, 장애물 피하기, 문 열기 등을 동시에 학습해야 할때도 적용된다. 각행위나 작업별로 개별적인 업데이트(출력, 답변)를 수행하는 것이 아니라, 일단 비슷한 작업을 그룹으로 인식한다. 그러 다음 상대적인 비교를 통해 일반화된 결정 내지 동작을 학습하는 것이다.

이는 “이런 방식으로 딥시크 R1은 인간의 개입을 최소화하고 비용을 절감하면서 추론 능력을 높여, 선진적인 모델에 준하는 성과를 얻을 수 있었다”는 해석이다.

딥시크 R1 사용자의 이미지. (출처=어도비스톡)

‘증류’ 통한 경량화된 신경망, 빠르게 추론

고도의 추론 능력을 지닌 대형 언어모델은 흔히 배포와 활용 단계에서도 많은 연산 자원을 소모하기 때문에 비용이 많이 들 수 밖에 없다. 이에 딥시크 R1은 이른바 ‘증류’(distillation) 방식을 적용한 점이 특징이다.

이는 대규모로 학습된 ‘고성능 모델’을 더 작고 연산 효율이 높은 ‘경량화된 모델’로 압축하는 기술이다. 다시 말해 복잡하고 큰 신경망과, 높은 정확도를 보이는 모델을 경량화함으로써 구조가 단순하고 경량화된 신경망으로 빠르게 추론할 수 있게 하는 것이다.

이를 위해 고성능 모델로부터 일단 확률 분포 수준의 대략적인 출력값(soft label)을 생성한다. 그런 출력값을 기반으로 추론과 예측을 반복한다. 그 과정에선 애초 고성능 모델이 출력했어야 할 정답(hard label)과 대략적인 출력값을 비교하며, 학습 성능을 높이는 방식이다. 말 그대로 본래의 물질에 대해 마치 화학적 ‘증류’와 같은 방식으로 이를 축소하는 셈이다.

이처럼 모델을 경량화할 경우 파라미터 수가 줄어들어 메모리 사용량과 연산량이 크게 줄어든다. 당연히 추론 시간도 빨라지고, 그로 인해 모바일이나, 엣지 디바이스 등에서 한층 빠르게 작업할 수 있다. 특히 모델 크기를 줄였음에도 불구하고, 애초 고성능 모델 수준의 정확도를 기할 수 있다는게 가장 큰 장점이다. 딥시크 R1 역시 이런 ‘증류’ 방식을 통해 결정적으로 성능을 극대화할 수 있었다.

다시 말해 모델을 크게 경량화했음에도 불구하고, 성능을 유지하며 기존 추론 모델에 비해 적은 연산 자원으로 작동하도록 했다. 이를 통해 대형 언어모델의 원본에 비해 적은 비용으로도 우수한 성능을 보이는 모델을 배포할 수 있게 된 것이다.