General Purpose / Zero-shot / LLM Reasoning에 대한 Step-by-Step checking
추가 데이터나 외부 자원이 필요 없음
LLM이 추론 과정의 오류를 자체적으로 식별하도록 유도하는 새로운 재생성-비교 방식을 활용
각 Solution의 가중치를 반영한 Majority Voting 수행
SelfCheck가 최종 예측 정확도를 향상시킬 수 있음을 확인
3. 발표자료 및 발표영상
발표자료 : 하단 첨부
발표영상 :
전체 14
Jungi Lee
2025-09-17 21:23
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 살펴보았습니다. 이 논문은 LLM의 대표적 추론 방식인 Chain of Thought에서 발생하는 오류 전파 문제를 완화하기 위한 방법을 제안합니다. 흥미로운 점은, 외부 평가자가 아닌 모델 스스로가 자신의 추론 과정을 점검할 수 있는지에 초점을 맞추었다는 점입니다. 이를 위해 추론 과정을 여러 단계로 세분화하고, 각 단계별로 검증하는 구조적 접근을 시도합니다. 물론 이 방식이 새로운 오류를 완전히 배제하지는 못할 것이라고 생각하지만, 스스로 검토하는 과정을 통해 오류 확산을 억제하고 결과의 신뢰성을 높일 수 있음을 보여주었습니다. 단순한 성능 향상을 넘어 LLM의 신뢰성 확보라는 중요한 연구 과제를 다뤘다는 점에서 의미가 크다고 생각합니다. 이번 발표를 통해 LLM 연구에서 어떤 방식으로 문제를 정의하고 접근할 수 있는지를 엿볼 수 있었고, 제한적인 조건 속에서도 새로운 해결책을 모색하는 연구 태도의 중요성을 다시금 느낄 수 있었습니다. 좋은 논문 소개해 주셔서 감사합니다.
Subeen Cha
2025-09-21 08:37
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문이 소개되었습니다. 이 연구는 LLM 추론 과정의 대표적 한계인 Chain-of-Thought 오류 전파 문제를 해결하기 위해, LLM 스스로를 활용한 재생성-비교 기반 단계별 검증 방식을 제안합니다. 단순히 답변을 다수결로 고르는 기존 접근과 달리, 과정을 target extraction → information collection → step regeneration → result comparison으로 세분화하여 검증하는 점이 인상 깊었습니다.
개인적으로는 LLM의 약점을 다시 LLM의 강점으로 전환하는 발상이 참신하게 다가왔습니다. 단순한 정답 도출을 넘어 추론 과정을 검증하는 연구의 필요성을 다시금 느낄 수 있었고, 발상의 전환을 통한 접근법의 가능성을 엿볼 수 있었습니다. 좋은 세미나 준비해 주셔서 감사합니다 🙂
Junyeong Son
2025-09-21 21:53
이번 세미나는 LLM이 Reasoning 과정에서 Confidence Score에 기반해 각 Step별로 스스로 Check하는 방법론인 SelfCheck를 제안한 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning”라는 논문에 대한 발표를 중심으로 진행되었습니다. CoT를 시작으로 LLM의 Reasoning 단계에서 문제를 분해하고, 이를 해결하는 프롬프팅 방식들이 많이 등장했습니다. 대표적으로 Self-Consistency (SC-CoT), Self-Verification, Deductive-Verification 등의 방법론들이 있습니다. 이러한 방법론들에서의 실제 LLM Reasoning 과정이 제대로 수행되었는지 검증하는 것은 다양한데, SelfCheck에서는 추가 학습 데이터나 도메인 별 예시 없이 Zero-Shot으로 Reasoning을 검증합니다. 즉, 각 Reasoning Steps에 대해 각 Step 별 Checking을 통해 Score를 산출하고, 이를 통합해 전체 Reasoning에 대한 Score를 계산합니다. 한 가지 아쉬운 점이라고 한다면, 문제를 풀이하는 Reasoning Step마다 실시간으로 Score를 계산하고, 이를 개선시켜 다음 Step에서는 이를 개선시키는 방향으로 이루어진다면 더 좋은 방향성이 될 수 있을 것 같은데 현재 방법론은 전체 Step을 추출한 이후에 검증하는 단계라는 점이었습니다. 그래도 단순한 CoT 방식에서 Reasoning 프롬프팅 방법이 다양하게 연구되는 과정에서 이에 대한 검증 또한 중요한 절차라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
Woojun Lee
2025-09-22 09:33
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 라는 논문을 소개해주셨습니다. 이 논문은 LLM이 추론 과정에서 발생할 수 있는 Chain-of-Thought 오류 전파 문제를 해결하기 위해, 각 단계별로 결과를 재생성하고 비교하는 방식의 SelfCheck 기법을 제안합니다. 추가적인 데이터나 외부 자원 없이도 Zero-Shot으로 reasoning을 검증할 수 있다는 점이 인상적이었고, LLM의 약점을 다시 강점으로 전환하는 창의적인 접근이 돋보였습니다. 앞으로 LLM의 신뢰성과 정확도를 높이기 위한 다양한 연구가 이어질 것으로 기대됩니다.
Sunmin Kim
2025-09-22 17:52
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 소개해주셨습니다. LLM 서비스를 사용하다 보면 모델이 틀린 답을 맞다고 주장하는 경우가 많은데, 발표를 통해 이를 개선할 수 있는 방법인 Chain-of-Thought의 발전 방향에 대해 알 수 있었습니다. 특히, 본 논문에서 제안하는 SelfCheck 방법론은 각 reasoning step마다 스코어를 계산하고, 이를 종합해 전체 추론 과정에 대한 스코어를 산출하는 방식이 흥미로웠습니다. 모든 단계를 검증하는 이 해당 방법론은 실제 서비스에도 충분히 활용될 수 있는 연구라고 생각합니다. 다만, 방법론이 프롬프트 의존성이 높아 보였고, 다양한 모델에 대한 실험이 부족했던 점은 아쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.
Jaeyong Ko
2025-09-22 19:07
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 이라는 논문을 소개해주셨습니다. SelfCheck의 핵심 아이디어는 단순히 LLM의 Reasoning 과정의 개별 단계의 신뢰성을 평가하는 데 있습니다. 특히나 SelfCheck가 4단계의 체계적인 검증 프로세스(Variable Definition Extraction, Target Extraction, Information Collection, Step Regeneration, Result Comparison)를 통해 각 추론 단계를 정밀하게 분석한다는 점이 인상깊었습니다. 아쉬운 부분으로는 모든 checking 부분에서 LLM이 API로 사용되며 결국 전체 풀이과정에 대한 confidence score 하나만 뽑음에도 과도한 비용을 필요로 한다는 점이었습니다. 그럼에도 불구하고 Zero-shot 환경에서 추가 데이터나 외부 자원 없이도 추론과적의 오류를 식별하는 재생성-비교 방식을 이용해 추론 품질을 향상시킬 수 있다는 점은 매우 의미 있는 기여라고 생각합니다. 본 연구를 기반으로 LLM Reasoning 단계에 따른 공정한 평가방식이 발전하며 LLM Reasoning 능력 발전의 새로운 기반이 될 수 있는 연구라 생각합니다. 좋은 세미나 발표해 주셔서 감사합니다.
Hankyeol Kim
2025-09-25 13:44
LLM의 뛰어난 추론 능력에 대한 분석과 활용 연구가 많이 나오고 있는데, 본 세미나에서 소개해주신 논문은 단순히 지식을 주입해 추론 능력을 향상시키는 것이 아니라 자기 검증의 절차화 자체를 제안한 연구로서, 간명하면서도 필요한 아이디어라는 생각이 들었습니다. 목표 추출, 맥락 수집, 독립 재생성, 비교 판정까지의 단계들을 거쳐 조건부 타당성을 점검하는데, 이 결과를 confidence score로 산출하여 정량적으로 평가하는 것이 인상깊었습니다. 이를 활용한 가중 투표가 다수결 방식을 안정적으로 상회하는 결과가 큰 설득력을 주는 듯합니다. 다만 정량적인 평가를 하는 만큼 추론 단계의 경계가 모호한 도메인에 대해서는 보다 까다로운 stepization 규칙이 필요하지 않을까 생각했습니다. 좋은 발표 감사합니다!
Suyeon Shin
2025-09-26 14:45
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 소개해주셨습니다. SelfCheck는 LLM이 스스로 추론 과정의 오류를 식별하도록 유도하는 재생성-비교 방식을 제안하며, 4단계 검증 프로세스를 통해 각 reasoning step의 신뢰성을 평가합니다. 추론 과정 자체에 대한 신뢰도를 고려하기 위해 고민했다는 부분이 인상깊었고, 추가 데이터 없이도 Zero-shot 환경에서 추론 품질을 향상시킨다는 점에서 의미 있는 기여라고 생각합니다. 좋은 발표 감사합니다.
Jaehee Kim
2025-09-27 16:13
금일 세미나는 LLM의 test time scaling 시 reasoning 단계의 가치를 스스로 평가하여 최종적인 답변을 선정하는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 을 중심으로 진행되었습니다. test time scaling은 추론 시의 연산량을 추가할 수록 더 나은 성능을 얻을 수 있는 관계를 의미하는데, 대표적으로 CoT, Best-of-N 등의 방법론이 있습니다. 다만 기존의 CoT 기반의 방법론들은 최종 답변을 기준으로 선택하면서 실제 reasoing의 정당성에 대해서는 제대로 활용하지 못하는 한계가 있었습니다. 이에 대해 해당 논문에서는 반복적으로 reasoning을. 생성하고 검증하고 수정하면서 각각의 reasoning 별 점수를 산출하고 이를 이용하여 aggregation하는 방식을 취합니다. 이를 통해 실제로 다양한 모델에서 단순 majority voting보다 우수한 성능을 보이고 있습니다. 성능 향상이 명확하고 그 동기도 명확하다는 점에서 매우 인상적이었으나, 이미 비용이 많이드는 majority voting 대비 2배의 비용이 소모된다는 점이 향후 발전 가능성이 더 있어보이는 연구였습니다. 좋은 발표 감사합니다.
Jinwoo Jang
2025-09-28 19:50
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 리뷰했습니다. 기존 연구들이 Chain-of-Thought의 오류를 줄이기 위해 Self-consistency나 별도의 Verifier 모델을 훈련하는 방식에 의존했다면, SelfCheck는 LLM이 스스로 자신의 추론 과정을 재생성/비교하여 검증한다는 점에서 차별화된 접근을 보여주었습니다. 특히 각 reasoning step을 변수 정의 추출 -> 목표 확인 -> 정보 수집 -> 단계 재생성 -> 결과 비교라는 다섯 단계로 나누어 점검하는 체계적인 프로세스가 인상적이었습니다.
실험 결과에서도 단순 majority voting보다 일관되게 높은 성능 정확도를 보였고, confidence score를 기반으로 solution의 신뢰도를 정량화할 수 있다는 점이 설득력 있었습니다. 또한 ablation study를 통해 단순 전역 검증보다 step-by-step 단계 검증이 필요하다는 점을 실험적으로 보여주었습니다. 다만, 발표에서도 언급되었듯이, 프롬프트 설게에 대한 의존성과 API 호출 비용 증가라는 문제는 향후 해결해야 할 과제라고 느꼈습니다.
종합적으로, SelfCheck는 단순히 성능 개선을 넘어 추론의 신뢰성 확보라는 중요한 문제를 풀고자 했다는 점에서 가치 있는 연구라고 생각합니다. 이번 발표를 통해 LLM의 reasoning을 바라보는 새로운 관점을 얻을 수 있었습니다. 좋은 발표 감사합니다.
Jaewon Cheon
2025-09-30 14:23
이번 세미나는 LLM이 생성한 추론 과정을 스스로 검증하도록 하는 SelfCheck 기법을 다루었습니다. 기존의 Majority Voting이나 Self-Verification이 최종 답변 중심으로만 검증했다면, SelfCheck는 각 reasoning step을 재생성·비교하여 신뢰도를 수치화한다는 점이 인상적이었습니다. 특히 추가 학습 데이터 없이 Zero-Shot으로 단계별 검증을 수행할 수 있다는 점이 새로웠습니다. 다만 프롬프트 설계 의존도가 높고, 실제로는 API 비용이 크게 증가한다는 한계는 아쉬웠습니다. 그럼에도 단순 정확도 향상을 넘어 추론 과정 자체를 평가 가능하게 만들었다는 점에서 의미 있는 시도였다고 생각합니다. 발표 덕분에 CoT 검증 연구의 흐름을 잘 이해할 수 있는 좋은 시간이었습니다.
Sieon Park
2025-09-30 22:17
이번 세미나에서는 "SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning" 논문을 소개해주셨습니다. SelfCheck가 LLM의 reasoning을 단순히 최종 답만 평가하는 것이 아니라, 각 단계별 추론 과정을 재생성 및 비교하면서 오류를 식별하고 가중치를 반영한다는 점이 인상 깊었습니다. 특히 추가 학습 데이터나 외부 검증 모델 없이, 순수하게 LLM 자체의 능력만으로 오류 검출과 성능 향상을 이끌어낸다는 점이 주목할 만했습니다. 다만 발표에서 언급된 것처럼 API 비용이 기존 majority voting 대비 약 2배로 증가한다는 점은 실제 적용에서 고려해야 할 과제일 것 같습니다. 좋은 논문 소개해 주셔서 감사합니다
Jinwoo Park
2025-10-01 01:01
금일 세미나는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 바탕으로 진행되었습니다. 제안 연구에서는 LLM이 스스로 본인이 진행하는 reasoning과정이 적절한지에 대해 check를 진행하게 하는 Self check를 중점적으로 다루고 있었습니다. 이러한 self check가 필요한 이유는 애초에 reasoning 과정이 잘 진행하는지 파악이 필요하며, 기존 LLM에게 직접 자신의 답을 검증하라고 하면 대부분 ‘맞다’라고 답하는 현상이 있었기 때문입니다. 해당 연구에서는 원본 reasoning steps에 대해 각 step 별 checking을 수행한 후, 각step 별 checking 결과를 통합하여 전체 reasoning에 대한 score 산출하는 방법을 사용하고 있습니다. 제안 방법론은 다음과 같은 step으로 이루어져 있습니다. (0) step에서는 문제 풀이 전역에 사용되는 변수 정보를 정의한 후, (1) 검증할 step이 수행되는 목적을 도출하게 하고, (2) 전체 풀이 중 step 5와 직접적으로 연결된 이전 step을 찾으며, (3) 이전 stage에서 수집한 내용을 기반으로 step 5를 재생성합니다. (4) 이후 재생성된 step 5가 기존 step 5를 ‘지지’하는지 ‘반대’하는지 ‘관련없는지’ 판단하는 방식으로 수행되고 있습니다. 이러한 생성모델, 더 나아가서 추론 과정을 검증하는 것이 매우 중요하기에, 이러한 검증에 대한 연구들도 많이 등장하는 것 같습니다. 이때 최종 답변 향상에만 집중하지 않고, 각 단계에 대해 검증하는 것이 인상깊었습니다. 좋은 연구 소개 정말 감사드립니다.
Hyeongwon Kang
2025-10-29 20:55
이번 세미나는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 중심으로 진행되었습니다. 본 연구는 LLM이 스스로의 추론 과정을 단계별로 검증할 수 있도록 하는 SelfCheck 프레임워크를 제안하며, 추가 학습 데이터나 별도의 검증 모델 없이 Zero-Shot 설정에서 작동한다는 점이 인상적이었습니다. 기존 Chain-of-Thought(CoT)나 Self-Consistency 접근들이 최종 답변의 일관성에 초점을 맞춘 반면, SelfCheck는 각 reasoning step의 정당성을 점검해 단계별 신뢰도를 수치화하고, 이를 종합적으로 평가한다는 점에서 차별적입니다. 특히 reasoning 전 과정을 생성한 후 이를 검증하는 구조를 통해 오류 전파를 최소화하려는 시도가 흥미로웠습니다. 다만 step 단위의 실시간 self-evaluation으로 발전했다면 더 강력한 피드백 루프를 형성할 수 있었을 것 같다는 아쉬움이 남았습니다. 그럼에도 불구하고, LLM의 신뢰성 향상을 위한 “self-verification” 방향성을 명확히 제시했다는 점에서 의미 있는 연구라 생각합니다. 좋은 발표 감사합니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 살펴보았습니다. 이 논문은 LLM의 대표적 추론 방식인 Chain of Thought에서 발생하는 오류 전파 문제를 완화하기 위한 방법을 제안합니다. 흥미로운 점은, 외부 평가자가 아닌 모델 스스로가 자신의 추론 과정을 점검할 수 있는지에 초점을 맞추었다는 점입니다. 이를 위해 추론 과정을 여러 단계로 세분화하고, 각 단계별로 검증하는 구조적 접근을 시도합니다. 물론 이 방식이 새로운 오류를 완전히 배제하지는 못할 것이라고 생각하지만, 스스로 검토하는 과정을 통해 오류 확산을 억제하고 결과의 신뢰성을 높일 수 있음을 보여주었습니다. 단순한 성능 향상을 넘어 LLM의 신뢰성 확보라는 중요한 연구 과제를 다뤘다는 점에서 의미가 크다고 생각합니다. 이번 발표를 통해 LLM 연구에서 어떤 방식으로 문제를 정의하고 접근할 수 있는지를 엿볼 수 있었고, 제한적인 조건 속에서도 새로운 해결책을 모색하는 연구 태도의 중요성을 다시금 느낄 수 있었습니다. 좋은 논문 소개해 주셔서 감사합니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문이 소개되었습니다. 이 연구는 LLM 추론 과정의 대표적 한계인 Chain-of-Thought 오류 전파 문제를 해결하기 위해, LLM 스스로를 활용한 재생성-비교 기반 단계별 검증 방식을 제안합니다. 단순히 답변을 다수결로 고르는 기존 접근과 달리, 과정을 target extraction → information collection → step regeneration → result comparison으로 세분화하여 검증하는 점이 인상 깊었습니다.
개인적으로는 LLM의 약점을 다시 LLM의 강점으로 전환하는 발상이 참신하게 다가왔습니다. 단순한 정답 도출을 넘어 추론 과정을 검증하는 연구의 필요성을 다시금 느낄 수 있었고, 발상의 전환을 통한 접근법의 가능성을 엿볼 수 있었습니다. 좋은 세미나 준비해 주셔서 감사합니다 🙂
이번 세미나는 LLM이 Reasoning 과정에서 Confidence Score에 기반해 각 Step별로 스스로 Check하는 방법론인 SelfCheck를 제안한 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning”라는 논문에 대한 발표를 중심으로 진행되었습니다. CoT를 시작으로 LLM의 Reasoning 단계에서 문제를 분해하고, 이를 해결하는 프롬프팅 방식들이 많이 등장했습니다. 대표적으로 Self-Consistency (SC-CoT), Self-Verification, Deductive-Verification 등의 방법론들이 있습니다. 이러한 방법론들에서의 실제 LLM Reasoning 과정이 제대로 수행되었는지 검증하는 것은 다양한데, SelfCheck에서는 추가 학습 데이터나 도메인 별 예시 없이 Zero-Shot으로 Reasoning을 검증합니다. 즉, 각 Reasoning Steps에 대해 각 Step 별 Checking을 통해 Score를 산출하고, 이를 통합해 전체 Reasoning에 대한 Score를 계산합니다. 한 가지 아쉬운 점이라고 한다면, 문제를 풀이하는 Reasoning Step마다 실시간으로 Score를 계산하고, 이를 개선시켜 다음 Step에서는 이를 개선시키는 방향으로 이루어진다면 더 좋은 방향성이 될 수 있을 것 같은데 현재 방법론은 전체 Step을 추출한 이후에 검증하는 단계라는 점이었습니다. 그래도 단순한 CoT 방식에서 Reasoning 프롬프팅 방법이 다양하게 연구되는 과정에서 이에 대한 검증 또한 중요한 절차라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 라는 논문을 소개해주셨습니다. 이 논문은 LLM이 추론 과정에서 발생할 수 있는 Chain-of-Thought 오류 전파 문제를 해결하기 위해, 각 단계별로 결과를 재생성하고 비교하는 방식의 SelfCheck 기법을 제안합니다. 추가적인 데이터나 외부 자원 없이도 Zero-Shot으로 reasoning을 검증할 수 있다는 점이 인상적이었고, LLM의 약점을 다시 강점으로 전환하는 창의적인 접근이 돋보였습니다. 앞으로 LLM의 신뢰성과 정확도를 높이기 위한 다양한 연구가 이어질 것으로 기대됩니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 소개해주셨습니다. LLM 서비스를 사용하다 보면 모델이 틀린 답을 맞다고 주장하는 경우가 많은데, 발표를 통해 이를 개선할 수 있는 방법인 Chain-of-Thought의 발전 방향에 대해 알 수 있었습니다. 특히, 본 논문에서 제안하는 SelfCheck 방법론은 각 reasoning step마다 스코어를 계산하고, 이를 종합해 전체 추론 과정에 대한 스코어를 산출하는 방식이 흥미로웠습니다. 모든 단계를 검증하는 이 해당 방법론은 실제 서비스에도 충분히 활용될 수 있는 연구라고 생각합니다. 다만, 방법론이 프롬프트 의존성이 높아 보였고, 다양한 모델에 대한 실험이 부족했던 점은 아쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 이라는 논문을 소개해주셨습니다. SelfCheck의 핵심 아이디어는 단순히 LLM의 Reasoning 과정의 개별 단계의 신뢰성을 평가하는 데 있습니다. 특히나 SelfCheck가 4단계의 체계적인 검증 프로세스(Variable Definition Extraction, Target Extraction, Information Collection, Step Regeneration, Result Comparison)를 통해 각 추론 단계를 정밀하게 분석한다는 점이 인상깊었습니다. 아쉬운 부분으로는 모든 checking 부분에서 LLM이 API로 사용되며 결국 전체 풀이과정에 대한 confidence score 하나만 뽑음에도 과도한 비용을 필요로 한다는 점이었습니다. 그럼에도 불구하고 Zero-shot 환경에서 추가 데이터나 외부 자원 없이도 추론과적의 오류를 식별하는 재생성-비교 방식을 이용해 추론 품질을 향상시킬 수 있다는 점은 매우 의미 있는 기여라고 생각합니다. 본 연구를 기반으로 LLM Reasoning 단계에 따른 공정한 평가방식이 발전하며 LLM Reasoning 능력 발전의 새로운 기반이 될 수 있는 연구라 생각합니다. 좋은 세미나 발표해 주셔서 감사합니다.
LLM의 뛰어난 추론 능력에 대한 분석과 활용 연구가 많이 나오고 있는데, 본 세미나에서 소개해주신 논문은 단순히 지식을 주입해 추론 능력을 향상시키는 것이 아니라 자기 검증의 절차화 자체를 제안한 연구로서, 간명하면서도 필요한 아이디어라는 생각이 들었습니다. 목표 추출, 맥락 수집, 독립 재생성, 비교 판정까지의 단계들을 거쳐 조건부 타당성을 점검하는데, 이 결과를 confidence score로 산출하여 정량적으로 평가하는 것이 인상깊었습니다. 이를 활용한 가중 투표가 다수결 방식을 안정적으로 상회하는 결과가 큰 설득력을 주는 듯합니다. 다만 정량적인 평가를 하는 만큼 추론 단계의 경계가 모호한 도메인에 대해서는 보다 까다로운 stepization 규칙이 필요하지 않을까 생각했습니다. 좋은 발표 감사합니다!
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 소개해주셨습니다. SelfCheck는 LLM이 스스로 추론 과정의 오류를 식별하도록 유도하는 재생성-비교 방식을 제안하며, 4단계 검증 프로세스를 통해 각 reasoning step의 신뢰성을 평가합니다. 추론 과정 자체에 대한 신뢰도를 고려하기 위해 고민했다는 부분이 인상깊었고, 추가 데이터 없이도 Zero-shot 환경에서 추론 품질을 향상시킨다는 점에서 의미 있는 기여라고 생각합니다. 좋은 발표 감사합니다.
금일 세미나는 LLM의 test time scaling 시 reasoning 단계의 가치를 스스로 평가하여 최종적인 답변을 선정하는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 을 중심으로 진행되었습니다. test time scaling은 추론 시의 연산량을 추가할 수록 더 나은 성능을 얻을 수 있는 관계를 의미하는데, 대표적으로 CoT, Best-of-N 등의 방법론이 있습니다. 다만 기존의 CoT 기반의 방법론들은 최종 답변을 기준으로 선택하면서 실제 reasoing의 정당성에 대해서는 제대로 활용하지 못하는 한계가 있었습니다. 이에 대해 해당 논문에서는 반복적으로 reasoning을. 생성하고 검증하고 수정하면서 각각의 reasoning 별 점수를 산출하고 이를 이용하여 aggregation하는 방식을 취합니다. 이를 통해 실제로 다양한 모델에서 단순 majority voting보다 우수한 성능을 보이고 있습니다. 성능 향상이 명확하고 그 동기도 명확하다는 점에서 매우 인상적이었으나, 이미 비용이 많이드는 majority voting 대비 2배의 비용이 소모된다는 점이 향후 발전 가능성이 더 있어보이는 연구였습니다. 좋은 발표 감사합니다.
이번 세미나에서는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 리뷰했습니다. 기존 연구들이 Chain-of-Thought의 오류를 줄이기 위해 Self-consistency나 별도의 Verifier 모델을 훈련하는 방식에 의존했다면, SelfCheck는 LLM이 스스로 자신의 추론 과정을 재생성/비교하여 검증한다는 점에서 차별화된 접근을 보여주었습니다. 특히 각 reasoning step을 변수 정의 추출 -> 목표 확인 -> 정보 수집 -> 단계 재생성 -> 결과 비교라는 다섯 단계로 나누어 점검하는 체계적인 프로세스가 인상적이었습니다.
실험 결과에서도 단순 majority voting보다 일관되게 높은 성능 정확도를 보였고, confidence score를 기반으로 solution의 신뢰도를 정량화할 수 있다는 점이 설득력 있었습니다. 또한 ablation study를 통해 단순 전역 검증보다 step-by-step 단계 검증이 필요하다는 점을 실험적으로 보여주었습니다. 다만, 발표에서도 언급되었듯이, 프롬프트 설게에 대한 의존성과 API 호출 비용 증가라는 문제는 향후 해결해야 할 과제라고 느꼈습니다.
종합적으로, SelfCheck는 단순히 성능 개선을 넘어 추론의 신뢰성 확보라는 중요한 문제를 풀고자 했다는 점에서 가치 있는 연구라고 생각합니다. 이번 발표를 통해 LLM의 reasoning을 바라보는 새로운 관점을 얻을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 LLM이 생성한 추론 과정을 스스로 검증하도록 하는 SelfCheck 기법을 다루었습니다. 기존의 Majority Voting이나 Self-Verification이 최종 답변 중심으로만 검증했다면, SelfCheck는 각 reasoning step을 재생성·비교하여 신뢰도를 수치화한다는 점이 인상적이었습니다. 특히 추가 학습 데이터 없이 Zero-Shot으로 단계별 검증을 수행할 수 있다는 점이 새로웠습니다. 다만 프롬프트 설계 의존도가 높고, 실제로는 API 비용이 크게 증가한다는 한계는 아쉬웠습니다. 그럼에도 단순 정확도 향상을 넘어 추론 과정 자체를 평가 가능하게 만들었다는 점에서 의미 있는 시도였다고 생각합니다. 발표 덕분에 CoT 검증 연구의 흐름을 잘 이해할 수 있는 좋은 시간이었습니다.
이번 세미나에서는 "SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning" 논문을 소개해주셨습니다. SelfCheck가 LLM의 reasoning을 단순히 최종 답만 평가하는 것이 아니라, 각 단계별 추론 과정을 재생성 및 비교하면서 오류를 식별하고 가중치를 반영한다는 점이 인상 깊었습니다. 특히 추가 학습 데이터나 외부 검증 모델 없이, 순수하게 LLM 자체의 능력만으로 오류 검출과 성능 향상을 이끌어낸다는 점이 주목할 만했습니다. 다만 발표에서 언급된 것처럼 API 비용이 기존 majority voting 대비 약 2배로 증가한다는 점은 실제 적용에서 고려해야 할 과제일 것 같습니다. 좋은 논문 소개해 주셔서 감사합니다
금일 세미나는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 바탕으로 진행되었습니다. 제안 연구에서는 LLM이 스스로 본인이 진행하는 reasoning과정이 적절한지에 대해 check를 진행하게 하는 Self check를 중점적으로 다루고 있었습니다. 이러한 self check가 필요한 이유는 애초에 reasoning 과정이 잘 진행하는지 파악이 필요하며, 기존 LLM에게 직접 자신의 답을 검증하라고 하면 대부분 ‘맞다’라고 답하는 현상이 있었기 때문입니다. 해당 연구에서는 원본 reasoning steps에 대해 각 step 별 checking을 수행한 후, 각step 별 checking 결과를 통합하여 전체 reasoning에 대한 score 산출하는 방법을 사용하고 있습니다. 제안 방법론은 다음과 같은 step으로 이루어져 있습니다. (0) step에서는 문제 풀이 전역에 사용되는 변수 정보를 정의한 후, (1) 검증할 step이 수행되는 목적을 도출하게 하고, (2) 전체 풀이 중 step 5와 직접적으로 연결된 이전 step을 찾으며, (3) 이전 stage에서 수집한 내용을 기반으로 step 5를 재생성합니다. (4) 이후 재생성된 step 5가 기존 step 5를 ‘지지’하는지 ‘반대’하는지 ‘관련없는지’ 판단하는 방식으로 수행되고 있습니다. 이러한 생성모델, 더 나아가서 추론 과정을 검증하는 것이 매우 중요하기에, 이러한 검증에 대한 연구들도 많이 등장하는 것 같습니다. 이때 최종 답변 향상에만 집중하지 않고, 각 단계에 대해 검증하는 것이 인상깊었습니다. 좋은 연구 소개 정말 감사드립니다.
이번 세미나는 “SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning” 논문을 중심으로 진행되었습니다. 본 연구는 LLM이 스스로의 추론 과정을 단계별로 검증할 수 있도록 하는 SelfCheck 프레임워크를 제안하며, 추가 학습 데이터나 별도의 검증 모델 없이 Zero-Shot 설정에서 작동한다는 점이 인상적이었습니다. 기존 Chain-of-Thought(CoT)나 Self-Consistency 접근들이 최종 답변의 일관성에 초점을 맞춘 반면, SelfCheck는 각 reasoning step의 정당성을 점검해 단계별 신뢰도를 수치화하고, 이를 종합적으로 평가한다는 점에서 차별적입니다. 특히 reasoning 전 과정을 생성한 후 이를 검증하는 구조를 통해 오류 전파를 최소화하려는 시도가 흥미로웠습니다. 다만 step 단위의 실시간 self-evaluation으로 발전했다면 더 강력한 피드백 루프를 형성할 수 있었을 것 같다는 아쉬움이 남았습니다. 그럼에도 불구하고, LLM의 신뢰성 향상을 위한 “self-verification” 방향성을 명확히 제시했다는 점에서 의미 있는 연구라 생각합니다. 좋은 발표 감사합니다.