[Paper Review] Reasoning and Reinforcement Learning for LLM

작성자
Jaehee Kim
작성일
2025-04-02 21:27
조회
508

1. 발표 제목 : Reasoning and Reinforcement Learning for LLM

2. 논문 링크:


3. Overview:


  • RLHF와 같은 LLM 강화학습의 수식적 전개과정 점검
  • LLM에 있어 강화학습이 지도학습 대비 가지는 이점
  • LLM 강화학습에 있어 필요한 요소 점검
  • 강화학습에서 유도된 progress reward model의 학습 및 활용 방안 소개

4. 개요:

이번 세미나 주제는 지난 2년 간 활발히 연구되고 있는 LLM의 강화학습 방법론 소개 및 최근 발전 방향에 대해 점검하고자 합니다. 강화학습은 매우 오랜 기간 연구되어온 분야로서 최근 LLM reasoning 능력의 중요성이 급부상하면서 자연어 처리 분야에 적용되고 있습니다. 강화학습의 본래 목적함수에서 시작하여 매우 큰 연산량을 요하는 LLM에 적용하기 위한 수식 전개과정을 우선 살펴보고, 실제 강화학습이 기존의 지도학습 대비 가지는 이점들에 대해 다루는 논문들을 살펴보고자 합니다. 이후에는 강화학습 과정에서 LLM이 reasoning 능력을 가지는 과정을 간략하게 점검한 이후 이를 이용한 test-time scaling 개념을 다루겠습니다. 마지막으로 test-time scaling과 강화학습 과정을 개선하기 위한 progress reward model의 개념 및 학습과 활용 방안을 다루며 마무리합니다.

5. 발표자료 및 영상


  • 발표자료: 하단 첨부
  • 영상:
전체 16

  • 2025-04-24 23:53

    이번 발표는 “Reasoning and Reinforcement Learning for LLM”에 대해, 최근 LLM 분야에서 가장 핵심적이면서도 도전적인 주제인 "강화학습 기반 튜닝"에 대한 탁월한 개론을 제공해 주었습니다. 단순히 RLHF의 사용 이유를 나열하는 수준이 아니라, 수식적 기반부터 시작해 왜 강화학습이 지도학습보다 reasoning 성능 향상에 기여하는지를 구조적으로 짚어준 점이 인상 깊었습니다. 특히, ReFT나 PAV, SFT vs RL 등의 최신 논문을 연결하며 test-time reasoning 강화의 필요성과 가능성을 짚은 부분은 실무적 시사점도 컸습니다. LLM에 맞춘 reward modeling과 scaling 전략에 대해 이론적 접근과 실용적 응용을 균형 있게 다뤄줘, 단순 기술 소개를 넘어 연구 방향성까지 고민하게 만드는 발표였습니다. 최근 LLM 최적화 흐름을 일목요연하게 정리해주는 매우 유익한 시간이었습니다.


  • 2025-05-04 18:00

    이번 세미나에서는 "Reasoning and Reinforcement Learning for LLM"라는 논문에 대한 소개를 중심으로 진행되었습니다. 발표는 LLM의 reasoning 능력을 강화하기 위해 강화학습이 어떻게 적용될 수 있는지를 이론적, 수식적 관점에서 깊이 있게 다루었고, 여러 관련 연구들을 체계적으로 엮어 설명해주셨습니다. 특히 강화학습의 기본적인 목적함수와 이를 LLM에 적용하기 위한 수식 전개 과정을 매우 꼼꼼히 설명해주셔서 좋았습니다. TRPO, PPO 같은 알고리즘의 원리와 LLM에 맞게 조정되는 surrogate objective의 필요성을 이해할 수 있었고, 단순히 수식을 나열하는 것이 아니라 왜 그런 방식이 필요한지를 논리적으로 설명해 주신 점이 인상 깊었습니다. 또한 기존의 SFT(supervised fine-tuning)가 정답에 맞는 단일 경로만 학습하도록 유도해 generalization과 다양성에 한계를 가진다는 점을 비판적으로 짚고, RLHF(reinforcement learning from human feedback)가 이 문제를 어떻게 보완하는지를 다양한 예시와 함께 보여준 점이 흥미로웠습니다. 난이도 높은 주제를 체계적으로 정리해 주셨고, 특히 수식과 이론을 적절히 균형 잡아 설명하려고 한 노력이 느껴졌습니다. 어려운 주제임에도 깔끔한 발표 준비와 구성 덕분에 많은 인사이트를 얻을 수 있었던 것 같습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2025-04-04 13:25

    이번 세미나는 거대 언어 모델의 Reasoning과 Reinforcement Learning에 대한 주제로 PPO까지의 과정, 즉 SFT와 RLHF부터 TRPO, PPO까지의 내용과 ReFT 등의 내용으로 구성되었습니다. 평소 강화학습에 대해 공부할 기회가 많이 없었는데, 거대 언어 모델의 학습 과정에서 SFT와 다르게 Query에 대한 생성문의 품질을 평가하는 Reward Model이 미분이 불가능한 텍스트에 기반한 입력을 업데이트하기 위해 어떻게 Surrogate Objective Function을 구성하고, 이를 미분해나가는지 수식적으로 이해할 수 있었습니다. 또한, Fine-Tuning 단계에서 모델이 스스로 다양한 Reasoning을 시도한 후에 이에 대한 성공 여부를 학습 신호(Reward)로 사용하는 강화 학습 방식이 쿼리와 정답 쌍을 통해 지도 학습을 수행하는 SFT와 모델이 생성한 답변 중 우수한 답변을 생성하도록 유도하는 Rejection Sampling 방식과 비교했을 때 우수한 성능을 보인다는 것을 입증한 Reasoning with REforced Fine-Tuning(ReFT) 연구에도 큰 흥미가 생겼습니다. 이후에는 첫 번째로 LLM의 추론 시 연산량의 규모를 늘려 생성문의 길이를 늘렸을 때, 어려운 Task에 대한 성능이 올라가는 현상을 나타내는 Test-Time Scaling에 대한 내용과, 기존 Output Reward Model이 최종 정답 여부만 확인 가능한 것을 각 Reasoning의 정답 추론 가능성을 확인할 수 있도록 한 PAV, 그리고 실제 Q-Function의 학습 대상 모델이 되는 Prover Model의 학습 과정에 대해서 알 수 있었습니다. 결론적으로 LLM의 Reinforcement Learning에서 Test-Time Scaling을 통해 추가적인 개선이 가능하며, Q-Function을 도입해 기존 Output Reward Model과는 달리 풀이 과정에 대한 검증이 가능했습니다. 최근 LLM 분야에서 강화 학습을 통해 실제 사람이 풀기에도 매우 어려운 과업들(ex> 대학원 수준의 수학 문제)에 대해서도 꽤 높은 정확도를 가지고 해결할 수 있는 것에 대해 연구가 많이 진행되고 있는데, LLM의 학습 및 추론 능력이 어디까지 성장할 수 있을지 앞으로가 더욱 기대되는 시간이었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2025-04-04 15:10

    이번 세미나에서는 최근 LLM 연구에서 가장 활발히 논의되는 강화학습 기반 학습 기법들을 매우 구조적이고 깊이 있게 발표해 주셨습니다. 특히 RLHF의 등장 배경과 SFT의 한계를 설명하며, 왜 PPO와 같은 강화학습 알고리즘이 LLM에 필요한지를 수식적으로 명확하게 설명해 주셨습니다. 기존 SFT 방식이 고정된 정답만을 학습해 데이터 다양성과 일반화 능력에 한계가 있었던 반면, RLHF는 다양한 문장 생성과 그 품질에 따른 보상을 통해 보다 유연하고 강건한 모델 학습이 가능하다는 점이 강조되었습니다. TRPO와 PPO의 수식 전개 과정을 통해 원래의 강화학습 목적함수를 어떻게 surrogate objective로 근사하는지, 또 PPO가 TRPO보다 연산 효율성과 안정성을 어떻게 개선했는지를 실전적인 관점에서 이해할 수 있었던 점도 흥미로웠습니다. 특히 ReFT 논문에서는 단순한 정답 암기가 아닌 다양한 reasoning path를 시도하고, reward를 통해 학습한다는 점에서 LLM의 사고 능력을 길러주는 방식으로 작동한다는 점이 인상적이었습니다. 무엇보다 reward hacking 문제와 작은 모델에서도 RL이 유효하다는 실험 결과는 실제 응용 시 고려할 점들을 잘 짚어주셨습니다. 이를 통해, SFT는 빠르게 수렴하지만 일반화 능력이 떨어지고, RL은 연산량이 많지만 학습이 진행될수록 오히려 다양한 태스크에 대해 성능을 높인다는 것을 확실히 이해할 수 있었습니다. 전체적으로 강화학습을 단순한 post-training 방법이 아닌 reasoning 능력의 본질적 향상을 위한 수단으로 접근한 시도가 매우 흥미롭고 인상 깊은 세미나였습니다. 어려운 주제임에도 예시 자료와 함께 잘 설명해주셔서 이해가 수월했습니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2025-04-04 20:51

    이번 세미나에서는 거대 언어 모델(LLM)의 추론 능력을 강화하기 위한 학습 기법으로서의 강화학습, 특히 RLHF, TRPO, PPO, 그리고 ReFT 등 최근 주목받는 방법론들을 중심으로 발표가 진행되었습니다. Supervised Fine-Tuning(SFT)의 한계를 극복하기 위해 등장한 RLHF의 개념과, 이를 실현하기 위한 수식 기반의 PPO 알고리즘 전개는 강화학습에 익숙하지 않은 입장에서도 이해하기 쉽게 설명되었고, LLM의 응답 품질을 reward로 평가해 더 나은 응답을 생성하도록 학습시키는 과정이 인상 깊었습니다. 특히 ReFT에서는 단순한 정답 예측을 넘어 다양한 추론 경로를 시도하고, 그 과정 자체를 보상으로 학습함으로써 reasoning 능력을 실질적으로 향상시킬 수 있다는 점이 흥미로웠고, Test-Time Scaling이나 PAV와 같은 후속 연구들이 실제 성능 향상을 어떻게 이끌어내는지도 구체적으로 확인할 수 있어 유익했습니다. 무엇보다도 강화학습이 단순한 성능 튜닝을 넘어서 LLM의 사고력과 일반화 능력을 키우는 방향으로 작동한다는 점에서, 앞으로 LLM이 해결할 수 있는 문제의 스펙트럼이 더 넓어질 것이라는 기대를 갖게 한 매우 인상적인 발표였습니다.


  • 2025-04-06 00:49

    모델과 데이터의 크기에 기반한 scaling law이 주로 견인하던 초기 LLM의 발전 방향에서 나아가, 강화학습과 test-time scaling, PAV까지 다양하고 보다 분석적인 방법론들의 등장이 너무나 놀랍고 흥미롭게 느껴집니다. 본 세미나를 통해 관련 내용들을 깊이 있게 배울 수 있었기에 양질의 발표를 준비해주신 발표자님께 감사드립니다. Test-time scaling에 대해 막연하게만 알고 있었는데, sequential과 parellel 방식과 여러 case를 함께 확인할 수 있어 좋았으며 이후 보다 정량적인 분석과, 인과관계의 규명이 이루어지기를 기대합니다. 비교적 생소한 TRPO, PPO에 대해서는 수식이 다수 포함되어 있음에도 적당한 난이도 강약조절로 설명해주셔서 많은 도움이 되었습니다. 특히 Process Advantage Verifier (PAV)는 LLM 강화학습에 적합하고 매우 중요한 패러다임이라 느껴졌습니다. Prover Policy의 성능이 너무 높을 때 역효과가 난다는 점에서, 인간적인 직관성이 느껴져 의외성으로 다가왔습니다. 종합적으로, 단순한 token 생성 능력을 넘어 진정한 reasoning 능력을 점점 완벽히 갖춰가는 느낌이 들어, 발전의 한계가 존재할 지, 어디까지일 지가 새삼 궁금해지는 시간이었습니다. 감사합니다!


  • 2025-04-06 22:07

    이번 세미나는 거대 언어 모델의 Reasoning과 Reinforcement Learning에 대한 주제로 PPO까지의 과정, 즉 SFT와 RLHF부터 TRPO, PPO까지의 내용과 ReFT 등의 내용으로 구성되었습니다. 해당 논문은 기존 추천 시스템에서 생성 기반 모델들이 아이템의 semantic 정보만을 활용하여 collaborative signal을 충분히 반영하지 못한 한계를 극복하기 위해, behavior와 semantic 정보를 통합한 멀티모달 접근법을 제안한 EAGER 논문을 확장한 연구입니다. 특히 EAGER-LLM은 user history로부터 behavior 정보를 추출해 이를 LLM의 vocab으로 직접 통합하는 방식을 통해, 기존의 LC-Rec에서 나타난 협업 정보 반영의 제한을 효과적으로 개선했습니다. 이는 단순히 텍스트 프롬프트에 의존하지 않고 behavior 토큰을 직접 학습 가능하게 함으로써, 추천 모델의 성능과 reasoning 능력을 한 단계 더 끌어올렸다는 점에서 의미가 컸습니다. 또한 실험을 통해 semantic 기반 토큰보다 behavior 기반 토큰의 우수한 성능을 입증하여 collaborative 정보의 중요성과 LLM 기반 추천 시스템으로의 발전 가능성을 명확히 보여주었다고 생각됩니다. 좋은 발표 감사합니다.


  • 2025-04-07 16:11

    이번 세미나에서는 거대 언어 모델의 추론 능력 강화를 위한 다양한 강화학습 기법들이 어떻게 상호 보완적으로 작동하는지를 심도 있게 다루어 주셨습니다. SFT와 달리, RLHF를 통해 모델이 생성하는 답변의 품질을 평가하고 이를 보상 신호로 활용하는 과정을 수식적으로 명확히 풀어낸 점이 특히 인상 깊었습니다. TRPO와 PPO의 수식 전개를 통해, 기존 강화학습 목적함수를 surrogate objective로 근사하는 방법이 실제 문장 생성 과정에 어떻게 적용되는지를 구체적으로 확인할 수 있었고, 이를 바탕으로 ReFT 방식이 다양한 reasoning path를 스스로 탐색하여 모델의 사고력을 크게 향상시킬 수 있음을 실험적으로 입증한 부분이 인상적이었던 것 같습니다. 더불어, Test-Time Scaling, PAV, 그리고 Prover Model 등 후속 연구들의 소개를 통해, LLM의 추론 과정에서 발생할 수 있는 문제들을 정량적으로 분석하고 보완하는 다양한 접근법이 존재함을 알 수 있었으며, 이러한 연구 방향이 향후 더욱 복잡하고 도전적인 과업에서도 높은 성능을 발휘할 수 있는 기반이 될 것이라는 생각이 들었습니다. 발표자 분의 체계적이고 깊이 있는 설명 덕분에 강화학습과 LLM의 융합에 대한 기초를 알 수 있었으며, 발표자 분의 사견 또한 들을 수 있음에 감사드립니다. 좋은 발표 감사합니다!


  • 2025-04-07 21:00

    이번 세미나는 LLM과 강화학습이라는 두 거대한 주제를 직접적으로 다루면서도 친절하고 체계적인 설명 덕분에 복잡한 내용을 비교적 수월하게 이해할 수 있었던 뜻깊은 시간이었습니다. 무려 두 차시에 걸쳐 강의 수준으로 구성된 발표를 통해 개념 하나하나를 단단히 다지면서도 전체 흐름을 놓치지 않게 이끌어 주어 정말 감사한 마음이 들었습니다.
    특히 흥미로웠던 점은 LLM에 강화학습이 어떻게 적용될 수 있나라는 점이였습니다. TRPO나 PPO 같은 고전적인 강화학습 알고리즘부터 시작해서, 최근 등장한 ReFT나 PAV 등 최신 논문에 이르기까지 다양한 접근 방식들을 폭넓게 다루어 주셔서, 단순히 ‘이런 방법이 있다’는 수준을 넘어 각 방법의 장단점과 발전 흐름까지 자연스럽게 파악할 수 있었습니다.
    또한 기존의 지도학습(SFT) 방식과 RLHF를 비교하면서 강화학습이 실제로 LLM의 reasoning 능력을 어떻게 증진시킬 수 있는지, 그리고 그것이 실제 테스트 시점에 어떤 형태로 확장될 수 있는지를 다룬 부분이 인상 깊었습니다. 개인적으로는 reasoning 능력과 reward model 사이의 관계를 학습 관점에서 바라본 것이 굉장히 신선했고, progress reward model을 활용한 test-time scaling 개념도 흥미롭게 다가왔습니다.
    LLM의 성능 향상을 위해 단순히 더 많은 데이터를 넣는 방식이 아닌 학습 구조 자체를 어떻게 설계할 수 있는지에 대한 고민이 녹아 있는 발표였기에, 향후 연구나 실무에 있어서도 많은 인사이트를 얻을 수 있었습니다.
    어려운 내용을 쉬운 언어와 논리로 풀어내 주신 발표자분께 깊이 감사드립니다!


  • 2025-04-12 10:25

    이번 세미나에서는 Reasoning and Reinforcement Learning for LLM과 관련된 방법론을 제시한 발표 자료를 중심으로 진행되었습니다. RLHF가 Post-training으로서 필수적으로 행해져야 하는 단계라는 것은 통상적으로 받아들여지는 정설이나, SFT와 별개로 이 추가적인 단계가 왜 필요한지에 대해서는, 이전까진 Helpfulness 혹은 Harmlessness를 학습시키기 위함이라 비교적 두루뭉술히 서술되었다면, 최근에는 Reasoning 능력이 중요해지면서 Supervision을 줄 수 없는 Task를 Trial & Error로 학습시키기 위함이라는, 명료한 목적을 가지고 수행되는 학습단계라고 생각합니다. 이러한 목적은 기존의 DL 프레임워크 내에서 최적으로 학습될 수는 없으며 이에 따라 자연스럽게 RL적 개념이 LLM과 융화되고 있는 것이 느껴졌습니다. 특히 이 과정에서 기존 RL이 중요시 여겼던 가정 혹은 병목점이 이외로 LLM에서는 Trivial한 지점들이 있고, 또한 Vice versa하기도 해서 이 두 큰 개념을 어떻게 융합해낼 것인가에 따라 RLHF, PRM, PAV와 같은 좋은 방법론 내지는 이론적 발전이 무궁무진히 생길 수 있는 분야라 생각합니다. InstructGPT를 비롯해 TRPO, PPO 등 꽤 많은 시간을 거슬러 올라가 이 모든 것을 커버하는 것이 로드가 굉장히 컸을 것 같습니다, 좋은 세미나 감사합니다.


  • 2025-04-14 21:46

    금일 세미나는 "Reasoning and Reinforcement Learning for LLM"를 주제로 진행되었습니다. 이는 최근 LLM 의 post-training 방법론의 주를 이루는 RLHF가 어떻게 수행되는지를 자세하게 다루어준 세미나로, 평소 듣기만 했었지 정확히 어떤 방법론인지는 찾아보지 않았기에 큰 도움이 되었던 세미나였습니다. 해당 세미나에서는 순차적으로 LLM의 학습 과정에 강화학습이 어떻게 결합되는지를 중심으로하여 RLHF, TRPO, PPO, ReFT 등의 최근 방법론을 구조적으로 정리해주셨습니다. SFT가 고정된 정답에만 의존하다 보니 표현의 다양성과 일반화에 한계가 있다는 점, 이를 보완하기 위해 reward 기반의 학습 단계가 필요하다는 설명이 수식과 함께 명확히 전달되어야 한다는 점을 기반으로, 어떤 reward function을 사용할 것인지에 대한 문제로 넘어가게 되었습니다. 이때 PPO는 TRPO의 안정성과 성능을 계승하면서도 연산 부담을 줄인 방식으로 소개되었고, 실제 LLM 학습에 더 적합한 구조라는 점이 인상 깊었습니다. 전체적으로, ReFT에서는 모델이 단순히 정답을 맞히는 것이 아니라, 여러 추론 경로를 탐색하고 그 과정 자체를 학습 신호로 삼는다는 점이 흥미로웠습니다. 마지막으로 소개된 Test-Time Scaling과 PAV, Prover Model은 reasoning 과정의 질을 높이기 위한 시도로, 단순한 출력 평가를 넘어서 추론의 과정까지 모델이 스스로 점검하고 개선할 수 있도록 한다는 점에서 매우 인상 깊었습니다. 강화학습이 LLM의 성능 향상을 넘어 사고력의 본질적인 개선으로 이어질 수 있음을 체감할 수 있었으며, 타 방법론에서도 정확한 reward function의 정의만 이루어진다면 쉽게 적용가능할 것이라는 생각이 들었습니다. 어려운 내용을 손쉽게 설명해주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2025-04-15 21:27

    이번 세미나에서는 “Reasoning and Reinforcement Learning for LLM”이라는 주제로, LLM 학습에서 강화학습이 어떻게 적용되고 있는지를 중심으로 발표가 진행되었습니다. 특히 RLHF와 PPO 알고리즘에 대한 구조적 이해를 돕기 위해, 기존 SFT 방식과 비교하며 각 접근 방식의 학습 방식과 학습 시 발생하는 문제점, 그리고 이를 해결하기 위한 수학적 기반까지 폭넓게 다뤄주셔서 인상 깊었습니다. 초반에는 RLHF의 기본 개념과 SFT와의 차이점을 소개하며, 정답이 주어진 상황에서의 확률 최적화와, 보상을 기반으로 한 탐색 중심 학습의 철학적 차이를 설명해 주셨습니다. 특히 TRPO와 PPO로 이어지는 강화학습 최적화 방식의 발전 흐름을 통해, 학습 안정성과 효율성 간의 균형을 어떻게 맞춰나가는지를 자세히 설명해주셨고, 이를 LLM에 적용하는 구체적인 예시들을 통해 개념이 명확하게 와닿았습니다. 후반부에는 최근 강화학습을 통한 reasoning fine-tuning 기법인 ReFT를 소개하며, 단일 정답 학습의 한계를 극복하고 다양한 reasoning path를 학습에 활용할 수 있다는 장점을 강조하셨습니다. 특히, Process Advantage Verifier와 같은 고도화된 평가 기법을 도입하여, 추론의 중간 단계에 대한 fine-grained reward를 부여하는 방식이 매우 인상적이었고, LLM의 reasoning 능력을 더 정교하게 다듬어가는 방향성에 대해 많은 통찰을 주는 발표였습니다. LLM을 활용한 강화학습 기반 학습 전략 전반을 아우르는 심도 깊은 설명 덕분에, 관련 분야에 대한 전체적인 조망을 얻을 수 있었고, 실험 세팅부터 기법 간 비교, 이론적 배경까지 매우 정리된 흐름으로 이해가 쉬웠습니다. 좋은 발표 감사합니다!


  • 2025-04-16 00:13

    이번 세미나에서는 LLM의 Reasoning 능력 향상을 위한 강화학습 기법들을 중심으로 발표가 진행되었습니다. SFT의 한계를 극복한 RLHF의 개념과 PPO로 이어지는 수식적 전개가 인상적이었고, 비미분 가능한 텍스트에 대해 surrogate objective를 통해 학습을 가능하게 한 점이 흥미로웠습니다. 특히 ReFT는 다양한 추론 경로를 탐색하고 그 과정에 대해 보상을 주는 방식으로 reasoning 능력을 강화한다는 점에서 인상 깊었습니다. 또한 Test-Time Scaling, PAV, Prover Model 등 후속 연구들을 통해 LLM이 복잡한 문제도 해결 가능하다는 가능성을 확인할 수 있었습니다. 단순 응답 생성이 아닌 사고 과정 전반을 학습하는 강화학습의 흐름을 잘 이해할 수 있었던 시간이었습니다. 좋은 발표 감사합니다.


  • 2025-04-13 21:27

    이번 세미나에서는 “Reasoning and Reinforcement Learning for LLM”을 주제로, 최근 LLM 학습 전략의 핵심으로 떠오른 강화학습 기반 학습 기법들에 대해 매우 구조적이고 깊이 있는 발표가 진행되었습니다. 특히 RLHF의 등장 배경과 SFT의 한계를 짚으며, 왜 PPO와 같은 강화학습 기법이 필요한지를 수식적 근거와 함께 명확히 설명해주셔서 이해에 큰 도움이 되었습니다. SFT는 빠르게 수렴하지만 고정된 정답만을 학습하기 때문에 데이터 다양성과 일반화 능력에 한계가 있는 반면, RLHF는 다양한 문장 생성과 그 품질에 따른 보상을 통해 보다 유연하고 강건한 모델 학습이 가능하다는 점이 인상 깊었습니다. 특히 TRPO와 PPO의 전개 과정, PPO가 TRPO보다 어떻게 효율성과 안정성을 확보하는지를 실용적인 관점에서 설명해주신 부분이 매우 유익했습니다. 또한 ReFT 논문에서는 reasoning path 자체를 학습하고 중간 추론 과정에 보상을 주는 방식으로, 단순 정답 예측을 넘어 LLM의 사고력을 길러주는 접근이 가능하다는 점이 흥미로웠습니다. Process Advantage Verifier(PAV) 같은 정교한 평가 기법도 매우 인상 깊었고, reward hacking이나 작은 모델에서의 RL 적용 가능성 등 실용적 고려사항도 함께 짚어주신 점이 좋았습니다. 이번 발표는 RL을 단순 post-training이 아닌 reasoning 능력 향상의 핵심 도구로 해석하는 관점을 잘 전달해주었고, 이론과 실용 사이의 균형을 갖춘 발표였다고 생각합니다. 어려운 주제임에도 흐름 있게 설명해주셔서 이해하기 쉬웠고, 많은 통찰을 얻을 수 있었습니다. 좋은 발표 감사합니다!


  • 2025-04-16 21:54

    이번 세미나에서는 최근 2년간 활발하게 연구되고 있는 LLM 기반 강화학습 방법론과 그 발전 흐름을 중심으로 발표해주셨습니다. 발표 초반에는 강화학습의 목적 함수로부터 출발하여, 계산량이 매우 큰 LLM에 이를 적용하기 위한 수식 전개 과정을 차근차근 짚어주셔서 이론적인 기반을 이해하는 데 큰 도움이 되었습니다. 이어서, LLM 학습에 있어 지도학습 대비 강화학습이 가지는 이점들을 소개하고, 특히 LLM이 reasoning 능력을 획득하게 되는 과정에 대해 다룬 부분이 인상 깊었습니다. 또한 test-time scaling과 함께, 이를 개선하기 위한 방안으로 progress reward model을 도입하고, 어떻게 학습하고 활용할 수 있는지에 대해서도 구체적으로 설명해주셔서, 실질적인 응용 가능성까지 살펴볼 수 있는 유익한 시간이었습니다. 전체적으로 LLM의 강화학습 적용에 대한 수학적 이해부터 응용까지 전반적인 이해를 높일 수 있는 발표였고, 앞으로 LLM의 reasoning 능력을 끌어올리는 방향성에 대해 생각해보는 좋은 계기가 되었습니다. 좋은 발표 감사합니다


  • 2025-04-17 18:37

    이번 세미나에서는 "Reasoning and Reinforcement Learning for LLM" 을 주제로 LLM을 위한 강화학습 방법론의 발전 방향과 내용에 대해 자세히 다루어 주었습니다. 두 번의 세미나 시간을 통해서 supervised fine-tuning (SFT)와 reinforcement learning human feedback (RLHF) 간 차이를 설명해주시고 RL을 위한 TRPO부터 PPO로 발전하는 과정에 대해 수식과 함께 자세히 소개해주셨습니다. 이후에는 RL을 이용한 fine-tuning 연구와 test-time scaling 그리고 progress advantage verifiers (PAV)까지 많은 내용이지만 예시와 함께 소개해주셔서 짧은 시간 동안 잘 이해할 수 있었습니다. 다른 곳에서 찾아볼 수 없는 유익할 발표와 내용 공유 감사합니다.


전체 506
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10583
관리자 2020.03.12 0 10583
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9179
관리자 2020.03.12 0 9179
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10294
관리자 2020.03.12 0 10294
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (5)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 78
Woojun Lee 2025.05.20 0 78
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (7)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 92
Jinwoo Park 2025.05.16 0 92
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (8)
Hun Im | 2025.05.15 | 추천 0 | 조회 88
Hun Im 2025.05.15 0 88
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (15)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 201
Junyeong Son 2025.05.08 0 201
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (15)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 182
Doyoon Kim 2025.05.01 0 182
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 338
Sunghun Lim 2025.04.24 0 338
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 230
Suyeon Shin 2025.04.21 0 230
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 227
Woongchan Nam 2025.04.16 0 227
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 475
Kiyoon Jeong 2025.04.16 0 475
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 493
Hyeongwon Kang 2025.04.09 0 493

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호