[Paper Review] About DeepSeek: Only the Research, No Hype

Paper Review
작성자
Jaewon Cheon
작성일
2025-02-13 22:32
조회
1483
1. 논문 제목
  • DeepSeek-V3 Technical Report / DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • 링크 : arxiv.org/html/2412.19437v1 / arxiv.org/abs/2501.12948
2. Overview
  • Pretrained Language Model의 효율적인 학습 및 추론을 위한 여러 분야로부터 파생된 방법론들의 집대성이 DeepSeek-V3 Model을 탄생시킬 수 있었음
  • 더 나아가, 좋은 성능의 PLM을 기반으로 RL-centric한 훈련 방식으로 SOTA 성능의 놀라운 추론 모델인 DeepSeek-R1 Model을 확보
3. 발표자료 및 발표영상
  • 발표자료 : 하단 첨부
  • 발표영상 : 추후 첨부
전체 12

  • 2025-02-19 14:34

    이번 세미나는 최근 큰 이슈가 되고 있는 DeepSeek에 대한 발표로 DeepSeek-V3, DeepSeek-R1에 대한 내용을 중심으로 진행되었습니다. 요즘 들어 DeepSeek가 각광을 받는 이유는, 낮은 비용을 가지고도 기존 LLM들에 준하는 모델을 구성했다는 점에 있습니다. 여기서 낮은 비용은 DeepSeek-V3, 기존 LLM, 그 중에서도 GPT o1에 준하는 Reasoning Model은 DeepSeek-R1에 해당합니다. DeepSeek-V3의 경우 하나의 토큰에 대한 Key, Value 값을 Key와 Value에 상관없이 통합해 Low-Rank 공간에 Compress하여 가지고 있다가 활용하는 Multi-Head Latent Attention 연산과 하나의 GPU에 2개의 Layer를 할당해 순방향과 역방향의 학습을 동시에 수행하는 DualPipe를 활용합니다. DeepSeek-R1의 경우 기존 SFT 방식으로 LLM의 학습을 진행했던 것과는 다르게 강화 학습을 활용해 Reasoning Model을 생성하는 DeepSeek-R1-Zero와 해당 모델을 통해 생성한 데이터셋을 통해 SFT 및 최종 강화 학습까지 진행한 DeepSeek-R1으로 구성됩니다. 최근 DeepSeek가 이전 ChatGPT보다도 어떠한 관점에서는 더 화제가 되고 있는데, 이에 대해 잘 이해할 수 있는 시간이었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-02-19 15:45

    이번 세미나는 요즘 가장 핫한 DeepSeek에 대해서 소개되었습니다. DeepSeek-V3, DeepSeek-R1-Zero, DeepSeek-R1 등 DeepSeek의 주요 모델들에 대해서 설명이 이루어졌습니다. DeepSeek 모델들의 추구하는 모습들은 모두 납득 가능해 보입니다. 다만, 실제 제안한 방법론으로 명시된 성능을 재현할 수 있을 지에 대해서는 여전히 의문이 남습니다. 더불어, 모델 자체로는 아이디어가 훌륭한 모델임을 알 수 있지만, 상용화 된 어플리케이션 내에서의 이슈 때문에 문제가 되는 것이 아닐까 싶습니다. 아이디어 측면에서 최근 LLM 학습에 활용되고 있는 강화학습 기법을 잘 적용한 점이 특히 인상적입니다. 동일한 학습 환경에서 더 좋은 gpu로 변경하여 학습할 경우에 어떤 결과가 나타날지도 궁금해집니다. 좋은 발표 감사합니다.


  • 2025-02-19 16:58

    이번 세미나에서는 최근 부각되고 있는 연구인 DeepSeek-V3와 DeepSeek-R1 논문에 대하여 발표해 주셨습니다. 해당 논문 리뷰에서 가장 흥미로웠던 점은 DeepSeek-V3 모델이 적은 컴퓨팅 자원으로도 성공적으로 학습되었다는 점입니다. 특히 Multi-head Latent Attention(MLA)과 DeepSeekMoE와 같은 혁신적인 기술을 통해 계산 효율성을 극대화한 것이 인상적이었습니다. MLA는 KV Cache를 Latent 공간에서 압축하여 연산량을 줄이면서도 성능 저하를 방지하는 방식으로, 대규모 모델 서빙 단계에서 효율성을 극대화했습니다. 또한, DualPipe를 통해 병렬 학습의 효율성을 높이고 FP8 정밀도를 활용한 점도 주목할 만했습니다. DeepSeek-R1 모델에서는 RL 기반의 추론 능력 향상이 특히 인상 깊었습니다. 기존 PPO 대신 GRPO라는 새로운 강화학습 방식을 도입하여 학습 복잡성을 줄이면서도 효과적인 성능 향상을 달성했습니다. 특히, R1-Zero 모델은 SFT 없이 RL만으로도 추론 능력을 함양할 수 있음을 증명하여 기존 LLM 학습 패러다임에 새로운 가능성을 제시했습니다. 또한 Rule-based Reward를 통해 단순한 보상 설계만으로도 모델이 스스로 긴 추론 과정을 생성하며 문제 해결 능력을 향상시키는 과정을 보여준 점이 흥미로웠습니다. 이러한 접근 방식은 향후 대규모 언어 모델 개발과 추론 능력 향상에 있어 새로운 패러다임을 제시한다고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2025-02-23 16:28

    금일 세미나는 최근에 사회적으로 많이 관심을 받고 있는 DeepSeek-V3와 DeepSeek-R1 논문을 중심으로 이루어졌습니다. 두 논문의 핵심 아이디어는 결국 "scaling을 위해 필요한 CS 기술과 기존에 활발히 연구된 NLP 지식들을 잘 포괄하여 pretrain/post-training 하는 것이 중요하다"라는 당연하지만 어려운 이야기라고 생각합니다. Multi-Latent Attention이나, Multi-Token Prediction, pipeline 최적화 등의 V3 논문 내 방법론들은 대부분 기존의 아이디어를 차용하거나, 일부 변형하여 사용하고 있습니다. R1의 복잡한 데이터 구축 및 학습 방식은 llama2 이후 지속적으로 연구되고 있는 학습-생성-정제 파이프라인을 고도화 한 것으로 보입니다. R1에서 특히 중요한 점은 GRPO 등의 적절한 RL 방법론이 있다면, 기존의 pretrained 모델 만으로도 높은 성능을 도출할 수 있으며, 추가적인 rule based reward가 보조적 역할을 수행할 수 있다는 점으로 보입니다. rule based reward 역시 기존 연구들에서 효과성을 입증하였다는 점에서 결국 reasoning capability라는 추상적인 개념은 이미 pretrain의 Scaling을 통해 획득될 수 있고, 고도화된 학습과 정제 파이프라인을 통해 추가적인 성능 개선의 room을 확인하였다라고 생각합니다.

    얼핏 기존 연구의 조합으로 보일 수 있지만, 이렇게 방대한 스케일에서 복잡한 조건들을 최적화해나가며 하나씩 실제 서비스까지 적용가능한 결과물을 대부분 논문을 통해 공개했다는 데 가장 큰 contibution이 있는 논문인 것 같습니다. 다만, pretrain corpus의 수집 방식에 대해 공개되어 있지 않고, 성능 면에서 유리하지만 추론에 불리한 MoE 구조를 차용하고 있다는 점에서 어느정도 주의하여 살펴보면 좋을 것 같습니다. 좋은 발표 감사합니다.


  • 2025-02-24 14:32

    이번 세미나에서는 최근 주목받고 있는 DeepSeek-V3와 DeepSeek-R1 모델에 대해 발표가 진행되었습니다. DeepSeek-V3는 적은 계산 자원으로도 뛰어난 성능을 발휘하는 모델로, Multi-Head Latent Attention(MLA)와 DualPipe 기법을 통해 계산 효율성을 극대화한 점이 인상적이었습니다. 특히, MLA는 연산량을 줄이면서도 성능을 유지하는 혁신적인 접근을 보여주었고, DualPipe는 병렬 학습을 최적화하여 학습 속도를 높였습니다. 또한, DeepSeek-R1에서는 강화학습 기반의 새로운 추론 방식을 도입하여, 기존 LLM 학습 방식에서 벗어나 효율적인 추론 능력 향상을 달성한 점이 주목을 받았습니다. 이러한 접근 방식은 기존 모델들과 비교해 혁신적인 가능성을 제시하며, 향후 대규모 언어 모델 개발에 중요한 영향을 미칠 것으로 기대됩니다.


  • 2025-02-24 16:50

    이번 세미나에서는 DeepSeek에 대한 발표로, DeepSeek-V3와 DeepSeek-R1 논문을 중심으로, 낮은 비용으로 기존 LLM 수준의 모델을 구성하는 혁신적인 접근법이 소개되었습니다. DeepSeek-V3는 하나의 토큰에 대한 Key, Value 값을 통합하여 Low-Rank 공간에 Compress하는 Multi-Head Latent Attention과 하나의 GPU에서 순방향과 역방향 학습을 동시에 수행하는 DualPipe 기법을 통해 성능과 효율성을 극대화하였습니다. V3의 핵심 아이디어는 scaling을 위해 필요한 CS 기술과 기존 NLP 지식의 포괄적 활용에 기반을 두고 있습니다. 반면, DeepSeek-R1은 기존 SFT 방식과는 달리 강화 학습을 통한 DeepSeek-R1-Zero 모델로 Reasoning Model을 생성하고, 이 모델을 활용해 구축한 데이터셋을 통해 추가 SFT 및 최종 강화 학습 단계를 진행함으로써, GRPO와 같은 적절한 RL 방법론과 rule based reward가 보조적 역할을 수행하여 고도화된 학습-생성-정제 파이프라인을 구현한 점이 주목됩니다. 비록 pretrain corpus의 수집 방식이 공개되지 않았고, 추론에는 불리한 MoE 구조를 도입한 점에 주의가 필요하지만, 방대한 스케일과 복잡한 조건들을 최적화하여 실제 서비스에 적용 가능한 결과물을 공개한 점이 큰 contribution으로 평가됩니다. 좋은 발표 감사합니다.


  • 2025-02-25 18:46

    이번 세미나에서는 최근 주목받고 있는 DeepSeek-V3와 DeepSeek-R1에 대한 발표가 진행되었습니다. DeepSeek-V3는 Multi-Head Latent Attention(MLA)과 DualPipe 기법을 통해 연산 효율성을 극대화하며, 적은 계산 자원으로도 높은 성능을 달성할 수 있도록 설계된 점이 인상적이었습니다. 특히, MLA를 활용하여 KV Cache를 Latent 공간에서 압축하는 방식은 기존 LLM 모델 대비 서빙 효율성을 높이는 데 중요한 역할을 했다고 생각이 들었습니다. 또한, DeepSeek-R1은 기존 SFT 방식과 차별화된 강화학습 기반 Reasoning Model로, R1-Zero에서 시작해 추가적인 SFT 및 RL을 적용하는 방식으로 발전된 모델이며 특히, GRPO 기반의 강화학습을 도입하여 추론 능력을 효과적으로 개선한 점이 흥미로웠습니다. 기존 Rule-based Reward 기법을 활용하면서도 RL을 통해 reasoning capability를 향상시킨 점이 기존 학습 패러다임과 차별화된 부분이라고 생각이 들긴 하지만, pretrain corpus의 수집 방식이 공개되지 않은 점과 MoE 구조의 활용이 추론 효율성 측면에서 불리할 가능성이 있다는 점은 향후 연구에서 추가적인 검토가 필요해 보입니다. 그럼에도 불구하고, 제한된 리소스로도 높은 성능을 유지하는 구조를 설계하고, 실제 서비스 적용까지 고려한 연구라는 점에서 큰 기여를 한 논문이라고 생각됩니다. 좋은 발표 감사합니다!


  • 2025-02-25 20:48

    금일 세미나는 최근 가장 큰 화두가 되고 있는 모델인 DeepSeek 모델에 대한 소개를 진행해주셨고, 세부적으로는 DeepSeek-V3, DeepSeek-R1에 대한 내용을 중심으로 진행되었습니다. DeepSeek-V3 모델은 매우 적은 컴퓨팅 자원으로 성공적으로 훈련에 성공한 Pre-trained 언어 모델로, DeepSeek-R1은 DeepSeek-V3-Base 모델을 바탕으로 추가 학습을 진행하여 모델이라고 볼 수 있습니다. 개인적으로 그 중 가장 큰 의미는 DeepSeek-V3모델에서 찾을 수 있었습니다. 해당 모델에는 다양한 컴퓨팅 자원 효율화 방법론들이 사용되고 있는데, 그 중 Multi-head Latent Attention은 하나의 토큰에 대한 Cache를 KV 상관없이 통합하여 Low-Rank 공간에 압축하여 가지고 있다가, 사용하는 경우에서만 Up projection을 통하여 재구축함으로써 사용하는 방법입니다. 이때 가장 큰 의미는 KV를 수식적으로 Cache Token으로 대체하는 과정을 전개하고 있다는 것으로 생각했습니다. 또한, Routing mechanism을 바탕으로 필요한 Parameter 만을 사용할 수 있도록 유도하는 Mixture of Expert를 사용하고 있으며 순방향과 역방향의 학습을 동시에 사용하는 DualPipe을 바탕으로 효율적인 학습을 이루어낼 수 있었습니다. 다음으로 DeepSeek-R1에서는 사전학습된 V3 모델에 강화학습을 통하여 추론 능력을 상승시키고 있습니다. 이때, Rule-based Reward 모델링을 진행하며 간단한 reward policy만을 바탕으로도 좋은 성능을 기록한 것이 놀라웠습니다. 최근 큰 파장을 일으킨 모델인 만큼 궁금증이 많았었는데 좋은 발표 해주셔서 수월하게 이해할 수 있었습니다. 좋은 발표 정말 감사드립니다.


  • 2025-02-25 21:40

    이번 세미나에서는 최근 주목받고 있는 DeepSeek-V3와 DeepSeek-R1에 대한 발표가 진행되었습니다. DeepSeek-V3는 Multi-Head Latent Attention(MLA)과 DualPipe 기법을 활용해 연산 효율성을 극대화하며, 적은 계산 자원으로도 높은 성능을 달성한 점이 인상적이었습니다. DeepSeek-R1은 기존 SFT 방식과 달리 강화학습 기반의 학습 방식을 도입해 reasoning 능력을 향상시킨 점이 주목할 만했습니다. 특히, GRPO와 Rule-based Reward를 활용한 전략이 효과적이었으며, 제한된 리소스로도 높은 성능을 유지하는 점에서 큰 의미가 있었습니다. 복잡한 개념을 차분하고 논리적으로 설명해 주신 덕분에 이해가 한층 쉬웠고, 정성스럽게 준비된 발표 덕분에 깊이 있는 논의를 나눌 수 있었습니다. 좋은 발표 감사합니다!


  • 2025-02-27 14:44

    이번 세미나에서는 "About DeepSeek: Only the Research, No Hype"라는 주제로 진행되었습니다. 이 세미나는 DeepSeek 시리즈의 최신 모델들, 특히 DeepSeek-V3와 DeepSeek-R1에 초점을 맞추었습니다. DeepSeek-V3 모델은 매우 적은 컴퓨팅 자원을 사용하여 성공적으로 학습되었으며, Multi-head Latent Attention과 DeepSeekMoE와 같은 혁신적인 기술을 도입하여 계산 효율성을 크게 향상시켰습니다. 이러한 기술은 KV Cache를 Latent 공간에서 압축하여 연산량을 줄이는 동시에 성능 저하를 방지하는 데 중점을 두었습니다. DeepSeek-R1 모델은 특히 강화학습을 통한 추론 능력 향상에 중점을 두었습니다. 이 모델은 기존의 Proximal Policy Optimization(PPO) 대신 GRPO라는 새로운 강화학습 방식을 도입하여 학습 복잡성을 줄이면서도 효과적인 성능 향상을 달성했습니다. DeepSeek-R1 Zero 모델은 Supervised Fine-Tuning 없이도 RL을 통해 추론 능력을 개발할 수 있음을 증명했습니다. 최근 전 세계에서 관심을 가지고 있는 연구에 대해 이해할 수 있도록 설명해주시고 빠르게 준비해주셔서 정말 감사드립니다. 좋은 발표 감사합니다.


  • 2025-02-23 22:32

    이번 세미나에서는 DeepSeek-V3와 DeepSeek-R1 모델을 중심으로, 최신 대규모 언어 모델(LLM) 연구의 핵심 기법을 살펴보았습니다. DeepSeek-V3는 Multi-head Latent Attention(MLA)을 활용해 KV Cache를 Latent 공간에서 압축하여 서빙 효율성을 극대화하고, DualPipe 구조와 Mixture of Experts (MoE)를 통해 학습 및 추론 비용을 최적화한 점이 인상적이었습니다. 특히, 제한된 자원에서도 높은 성능을 달성할 수 있도록 설계된 점이 주목할 만했습니다. DeepSeek-R1은 GRPO 기반의 강화학습(RL)을 적용하여 reasoning 능력을 효과적으로 향상시켰으며, R1-Zero 모델이 SFT 없이도 RL만으로 추론 능력을 학습할 수 있음을 보여준 점이 흥미로웠습니다. 또한, Rule-based Reward 기법을 활용해 간단한 정책만으로도 강력한 reasoning 능력을 확보한 점이 인상 깊었습니다. 다만, MoE 구조가 추론 속도에 미치는 영향과 Pretraining Corpus에 대한 정보가 부족한 점은 향후 보완이 필요해 보입니다. 제한된 컴퓨팅 자원에서도 효율적인 LLM 학습 및 추론이 가능하도록 설계된 연구라는 점에서 큰 의미가 있으며, 향후 LLM의 최적화 및 RL 기반 reasoning 강화를 위한 중요한 방향성을 제시한 논문이었습니다. 좋은 발표 감사합니다!


  • 2025-03-03 16:54

    이번 세미나는 "About DeepSeek: Only the Research, No Hype"이라는 주제로 DeepSeek에 대한 내용을 전부는 아니지만 전반적으로 순서에 맞게 정리해주셨습니다. 최근 많은 관심을 받고 있는만큼 어떤 요소들로 인해 큰 영향을 미치고 있는 것인지 잘 설명해주신 덕분에 쉽게 알 수 있었던 시간이었습니다. 확실히 느끼는 바는 Multi-head Latent Attention, DualPipe, Mixture of Experts 와 같은 방법을 함께 고려하여 학습 및 추론 비용 개선을 많이 신경쓰고 있다고 느꼈습니다. 또한 GRPO에 대한 이야기가 많이 나오는 이유가 무엇인지 알 수 있었던 시간이었습니다. 나온지 얼마 안된 내용이지만 짧은 기간 동안 알차게 내용을 준비해주셔서 감사합니다.


전체 544
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 13861
관리자 2020.03.12 0 13861
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 12609
관리자 2020.03.12 0 12609
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 13530
관리자 2020.03.12 0 13530
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 1145
Jungho Lee 2025.04.02 0 1145
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 1266
Hankyeol Kim 2025.03.25 0 1266
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 1249
Sieon Park 2025.03.19 0 1249
488
[Paper Review] FLAVA: A Foundational Language And Vision Alignment Model (16)
subeen_cha | 2025.03.14 | 추천 0 | 조회 1240
subeen_cha 2025.03.14 0 1240
487
[Paper Review] Aligning Language Models to Explicitly Handle Ambiguity (17)
SangMin Lee | 2025.03.13 | 추천 0 | 조회 1005
SangMin Lee 2025.03.13 0 1005
486
[Paper Review] MMAD: A Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection (18)
Siyul Sung | 2025.03.06 | 추천 0 | 조회 1577
Siyul Sung 2025.03.06 0 1577
485
[Paper Review] M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Di (9)
Jihun Nam | 2025.02.26 | 추천 0 | 조회 958
Jihun Nam 2025.02.26 0 958
484
[Paper Review] Guiding Image Captioning Models Toward More Specific Captions (10)
Minjeong Ma | 2025.02.19 | 추천 0 | 조회 1252
Minjeong Ma 2025.02.19 0 1252
483
[Paper Review] GeneralAD: Anomaly Detection Across Domains by Attending to Distorted Features (11)
Junyeong Son | 2025.02.18 | 추천 0 | 조회 919
Junyeong Son 2025.02.18 0 919
482
[Paper Review] Attractor Memory for Long-Term Time Series Forecasting: A Chaos Perspective (11)
Jinwoo Park | 2025.02.14 | 추천 0 | 조회 742
Jinwoo Park 2025.02.14 0 742

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호