DeepSeek-R1 논문은 기존 지도학습(SFT) 없이 순수한 강화 학습(RL)만으로 대규모 언어 모델(LLM)의 추론 능력을 개선하는 새로운 접근법을 제시한다112. 논문은 크게 세 부분으로 구성된다. 첫째, 기존 LLM의 한계를 짚으며 RL 기반 접근법의 필요성을 설명한다. 둘째, DeepSeek-V3-Base 모델을 기본으로 하여 RL 알고리즘(예를 들어 GRPO와 유사한 기법)을 적용하는 학습 메커니즘에 대해 상세히 기술한다214. 셋째, 다양한 추론 태스크를 통한 실험 결과와 이에 따른 분석, 그리고 해당 방법론의 한계와 향후 개선 방향을 논의한다410.
연구 방법론 및 세부 구성
논문의 방법론은 우선 지도학습 없이 모델을 초기화한 후, 강화 학습만으로 모델의 추론 능력을 점진적으로 개선하는 데 중점을 둔다. 구체적으로, 모델은 자신의 출력에 대해 보상 신호를 받아 체계적으로 개선되며, 이는 Chain-of-Thought와 같은 복잡한 문제 해결 과정의 내재적 학습을 가능하게 한다2. 또한, DeepSeek-R1은 DeepSeek-V3-Base라는 이미 구축된 아키텍처를 기반으로 하여, 기존 모델의 강점을 살리면서도 RL 기법을 통한 추론 능력 강화에 초점을 맞춘다12.
실험 결과 및 평가
실험에서는 AIME 2024와 MATH-500과 같은 추론 관련 태스크를 활용하여 모델의 성능을 평가하였다. AIME 2024에서는 79.8%의 Pass@1 성능을 기록하여 경쟁 모델인 OpenAI의 o1-1217을 소폭 능가하는 결과를 보였으며4, MATH-500의 경우 97.3%의 높은 정확도를 달성함으로써 RL 기반 학습의 우수성을 입증하였다10. 한편, 일부 평가에서는 비용 효율성 측면에서도 OpenAI의 최신 추론 모델 대비 10배 이상의 경제적 이점을 보여주는 점이 강조되었다9.
연구 기여 및 의의
본 논문의 주요 기여는 다음과 같다:
- 지도학습 없이 순수 강화 학습 기법만으로도 LLM의 추론 능력을 획기적으로 개선할 수 있음을 실증함으로써, 기존 방식의 한계를 극복하는 새로운 학습 패러다임을 제시한다12.
- 기존 모델(DeepSeek-V3-Base)을 기반으로 하여, RL 알고리즘을 통한 체계적 개선 과정을 상세히 기술하고, 이를 실제 추론 태스크에서 검증함으로써 학계 및 산업계에 향후 연구 방향에 대한 중요한 인사이트를 제공한다12.
- 경제성 측면에서 비용 절감 효과를 강조하며, 향후 대규모 AI 시스템의 효율적 운영에 기여할 수 있는 가능성을 보여준다9.
요약하면, DeepSeek-R1 논문은 RL 기반 학습만으로도 충분히 경쟁력 있는 LLM을 구축할 수 있음을 보여주며, 추론 능력 강화와 비용 효율성 개선이라는 두 마리 토끼를 동시에 잡은 연구로 평가된다.
추가 자료에는 DeepSeek-R1 논문의 체계적 개선 파이프라인에 대한 상세한 설명이 포함되어 있다. 예컨대, 논문은 초기 단계에서 단순 RL 기반 DeepSeek-R1-Zero를 제시한 후, 출력의 가독성 및 언어 혼합 문제를 해결하기 위해 소량의 고품질 Cold-start 데이터를 활용하는 단계가 도입됨을 강조한다. 이 과정에서는 긴 Chain-of-Thought(CoT) 예시를 기반으로 모델을 미리 미세 조정한 후, RL 단계에서 출력 체크포인트로부터 거절 샘플링(rejection sampling)을 통해 새로운 지도 학습(SFT) 데이터를 수집하는 절차가 포함된다.
또한, 후속 RL 단계에서는 추론 태스크 외에도 일반 질의응답, 역할 수행 등 다양한 시나리오에 대응하기 위해 유용성과 무해성을 고려한 보정 과정이 적용된다. 이와 함께, 문서에서는 언어 일관성을 유지하기 위한 보상(reward) 시스템에 대해 언급하며, 목표 언어 단어의 비율로 언어 혼합 문제를 완화하는 방법도 상세하게 다루어진다.
마지막으로, Distillation 절차에 대한 설명도 보완된다. DeepSeek-R1의 추론 능력을 소규모 모델로 이식하기 위해 Qwen 및 Llama 시리즈에 기반한 수백만 개의 SFT 샘플을 사용하며, 단순 지도 학습만으로도 원래 모델의 주요 추론 패턴을 증류하여 소형 모델에서도 높은 성능을 달성할 수 있음을 보여준다. 이 과정에서는 RL 단계 없이 증류 기법만 적용하는 방식이 경제성과 효율성 측면에서 강조된다.
DeepSeek-R1의 비용 절감 메커니즘과 증거
DeepSeek-R1은 기존의 지도학습 기반 미세 조정(SFT) 방식 대신 순수 강화 학습(RL)을 채택하여 전반적인 훈련 비용을 대폭 낮추는 전략을 펼칩니다520. 이 방식은 방대한 레이블링 데이터셋을 준비하고 전처리하는 데 드는 비용을 절감하는 동시에, 모델이 상호작용을 통해 스스로 개선할 수 있도록 합니다.
특히, DeepSeek-R1은 전통적인 RL 알고리즘들보다 계산 자원 효율성이 높은 Group Relative Policy Optimization (GRPO) 기법을 도입하였습니다. GRPO는 정책 업데이트 시 여러 샘플 간의 상대 비교를 통해 불필요한 연산을 줄임으로써, 훈련 과정에서 소요되는 자원을 크게 절감하는 효과를 가져옵니다24.
또한, 일부 모델 구성 요소—예를 들어, 전통적으로 RL 프레임워크에 포함되던 critic 모델의 제거—도 비용 절감에 기여하였습니다. 이러한 최적화는 전체 연산량을 낮추고, 결과적으로 훈련 비용을 극적으로 줄이는 효과를 불러일으킵니다21.
DeepSeek-R1 연구에서는 훈련 실행에 필요한 직접적인 비용만을 산정하는 방식을 채택하여, 기타 부대 비용이 배제된 비용 효율성을 강조합니다. 이를 통해 경쟁 모델에 비해 최대 95%에 달하는 비용 절감 효과를 달성했다고 보고되었으며, 이러한 수치는 실제 사용 및 벤치마크 결과로 뒷받침됩니다257.
마지막으로, Mixture of Experts(MoE)와 같은 모듈 간 효율적 협업 구조를 도입함으로써, 필요 연산량과 운영 비용을 추가로 낮추는 효과도 확인되었습니다827.
종합하면, DeepSeek-R1은 강화 학습을 통한 자기 개선, GRPO 기법 도입, 불필요한 구성 요소 제거 및 효율적 모듈 배치를 통해 전통적인 지도학습 방식보다 훨씬 낮은 비용으로 우수한 성능을 달성할 수 있음을 증명하고 있습니다.
추가적으로, DeepSeek-R1은 구체적인 비용 수치로도 그 효율성이 입증됩니다. 한 보고서에 따르면, DeepSeek-R1은 입력 토큰당 0.55달러, 출력 토큰당 2.19달러의 비용으로 운영되며, 이는 경쟁 모델인 OpenAI의 o1이 각각 입력 토큰당 15달러와 출력 토큰당 60달러의 비용을 요구하는 것에 비해 90~95% 이상의 비용 절감을 실현하는 수치입니다 11.
또한, DeepSeek-R1은 하드웨어 선택에서도 비용 효율성을 극대화합니다. NVIDIA H800과 같이 가격은 낮지만 H100 대비 성능은 제한적인 칩셋을 활용함으로써, 고가의 자원을 요구하는 경쟁 모델 대비 훈련 비용을 크게 낮추는 전략을 병행하였습니다 9.
이와 함께, 오픈 소스 기반의 개발 파이프라인과 모듈형 효율적 구조(예, MoE의 활용)는 상업적 오버헤드와 추가적인 비용 부담을 줄여 전체 운영 비용을 더욱 낮춥니다. 이러한 측면에서 DeepSeek-R1은 강화 학습 및 구조적 최적화를 통해 비용 효율성과 성능 모두에서 큰 발전을 이루었다고 할 수 있습니다.