Deepseek 논문 톹아보기
DeepSeek-R1 논문은 기존 지도학습(SFT) 없이 순수한 강화 학습(RL)만으로 대규모 언어 모델(LLM)의 추론 능력을 개선하는 새로운 접근법을 제시한다112. 논문은 크게 세 부분으로 구성된다. 첫째, 기존 LLM의 한계를 짚으며 RL 기반 접근법의 필요성을 설명한다. 둘째, DeepSeek-V3-Base 모델을 기본으로 하여 RL 알고리즘(예를 들어 GRPO와 유사한 기법)을 적용하는 학습 메커니즘에 대해 상세히 기술한다214. 셋째, 다양한 추론 태스크를 통한 실험 결과와 이에 따른 분석, 그리고 …