[Paper Review] Large Language Model based Evaluation (GPTScore, G-Eval)

작성자
Yukyung Lee
작성일
2023-09-18 20:01
조회
3813
1. Topic

LLM 기반의 평가 방법론들을 소개합니다

2. Overview
  • GPTScore: Evaluate as You Desire (https://arxiv.org/abs/2302.04166)
  • Can Large Language Models Be an Alternative to Human Evaluation? (https://arxiv.org/abs/2305.01937)
  • G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment (https://arxiv.org/abs/2303.16634)
3. 발표자료 및 발표영상
  • 발표자료: 하단 첨부파일
  • 발표영상: 추후 업로드 예정
전체 19

  • 2023-09-21 16:28

    본 세미나에서는 LLM의 등장에 따라 Evalution의 중요성이 강조되기 시작되었고 그에 따라 GPTScore, G-Eval 등의 방법론을 사용해 LLM 자체를 Evaluator로 사용하는 것이 가능한 것인지에 관한 내용을 다루고 있습니다. 기존에 사용되었던 Human Evaluation은 매우 비싸고 동일한 점수를 재현하기 어려우며 AMT 평가에 대한 신뢰성이 떨어지는 것이 반해 LLM 기반 Evaluator는 저렴하며 Unseen task에 Customized evaluation을 적용할 수 있다는 장점이 있습니다. 특히 G-Eval Score는 최근 가장 많이 사용되는 평가 지표로 Arithmetic reasoning과 Symbolic reasoning에서 SOTA를 달성했다는 점이 매우 흥미로웠습니다. 방대한 양의 데이터에 대한 라벨링 비용이 많이 드는 문제가 대두되고 해당 분야의 논문이 많이 나오고 있는 현시점에서 이와 관련된 고찰을 할 수 있었습니다. 또한 평소 연구하는 Computer Vision 분야에서도 Active Learning, Semi-Supervised Learning 등 많은 방법론이 대두되고 있는데 모델 라벨링에 대해서 더 깊이 연구하고자 다짐하게 되었습니다. 해당 분야에 대해서도 평소에 관심이 있었는데 유익한 발표 감사드립니다.


  • 2023-09-22 19:41

    이번 세미나는 Large Language Model의 Evaluation 능력을 연구한 세가지 논문을 중심으로 진행되었습니다. 지금까지 평가라는 작업은 당연하게도 1) 인간에 의한 평가 및 2) 자동 연산이 가능한 지표를 이용한 평가를 중심으로 이루어져 왔습니다. 인간에 의한 평가는 매우 높은 평가 신뢰도를 가질 수 있고, 실제 성능과 잘 align이 된다는 장점이 있지만, 높은 금전적 시간적 비용이 발생한다는 단점이 존재합니다. 이러한 한계점은 LLM이 인간처럼 다양한 태스크를 평가할 수 있는 능력이 있다면 충분히 극복될 수 있습니다. 본 세미나에서 다뤘던 세가지 논문은 1) LLM이 인간과 유사한 평가능력을 가지고 있음을 다양한 태스크 및 모델을 통하여 보이고 2) LLM을 평가자로 이용할 때 고려할 다양한 요소에 대한 프레임워크를 제안하고 3) GPT-4 API 등 생성확률에 접근 불가능한 Black Box LLM을 이용한 평가 방법론을 제안하고 있습니다. LLM을 이용한 생성문 평가가 매우 광범위하게 사용되고 있는 상황에서 여전히 많은 물음표가 존재하는 상황이라고 생각합니다. G-Eval이나 GPTScore 등에서도 여전히 어떠한 방식의 평가가 더 안정적이고 실제 Aspect를 잘 반영할 수 있는지 더 많은 연구가 기대되는 세미나였습니다. 좋은 발표 감사드립니다.


  • 2023-09-24 16:49

    금일 세미나 시간에는 이유경 박사과정이 “LLM based Evaluation”이라는 주제로 세미나를 진행해주었습니다. 우선 현시점까지 NLP분야에서 데이터셋 구성과 evaluation의 중요성이 강조되며 다양한LLM 연구들이 제안되는 과정에서 이를 평가하는 방식에 대한 생각과 고찰을 나눌 수 있어 더욱 의미 있는 세미나 시간이었다고 생각합니다. 세미나의 서두에서도 다루었지만 NLP에서 사람의 언어를 이해하는 분야이기에 이를 평가하는 방식에서 “human evaluation”은 매우 중요하다고 개인적으로 생각합니다. 하지만 이러한 Humane valuation의 높은 cost로 인해서 이를 대체하고자 evaluation역시도 LLM 모델 기반의 방식들이 제안되고 있습니다. 하지만 아이러니하게도 이러한 모델기반의 evaluation metric을 평가하기위해서는 결국 또다시 evaluate 하는 상황이 발생합니다. 하지만, 대용량의 데이터를 evaluation이 요구되는 시점에서 이러한 모델 기반의 model evaluation은 필수적이라고 생각됩니다. 다만, 이를 전적으로 절대적인 지표로 삼기에는 아직은 부족하다는 발표자의 의견에도 적극 동의합니다. LLM의 evaluation에 대해서 무언가 구체적이지 않다는 생각을 하는 입장에서 흥미롭게 세미나에 참여할 수 있었고, 다양한 시점에서 LLM evaluation을 소개해준 발표자에게 감사의 인사 전하며, 후기 마치도록 하겠습니다.


  • 2023-09-26 14:37

    본 세미나는 이유경 발표자님의 "Large Language Model based Evaluation (GPTScore, G-Eval)"라는 주제로 진행되었습니다. 해당 논문의 핵심은 NLP 모델의 평가로, 기존 보편적으로 진행되어 온 Human evaluation은 매우 비싸기 때문에, LLM을 Evaluator로 사용할 수 있을까?에 대한 실험 결과를 제시한 것입니다. 특히 이번 세미나에서 1) LLM이 Evaluator로 적합한지, 2) 생성 확률을 기반으로 한 평가, 3) CoT prompting을 기반으로 한 평가 라는 3가지 토픽을 순서대로 진행해주셨습니다. 특히 첫 번째 토픽의 논문에서 gpt2로 output을 생성하고 human written story와 성능을 비교했을 때, correlation이 높게 나왔고 이는 충분히 LLM Evaluator를 평가지표로 사용할 수 있다고 주장하고 있습니다. 다음 2번째 토픽에서는 next token probability를 score로 사용하고 있고, 3번째 토픽에서는 AutoCoT 방법을 제시하고 있습니다. 해당 논문들을 보면서 든 생각은 LLM Evaluator가 충분히 사용할만하지만, 해당 evaluator를 다시 평가하는 필요성이 있기 때문에 이 부분이 정립되면 매우 유용하다고 생각합니다. 특히 evaluator를 평가하기 위한 prompt를 구성하는 것도 매우 중요한 연구이기 때문에, 향후 해당 연구에 대해 많은 연구자가 관심을 가지면 더욱 좋을 것 같다고 생각했습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2023-09-27 12:20

    금일 세미나에서는 “LLM based Evaluation” 이라는 주제를 바탕으로 3가지 논문을 소개해 주셨습니다. LLM의 등장으로 인하여 Dataset의 구성과 Evaluation 방법의 중요성이 강조되기 시작했는데, 특히 Generation task에 대해서는 합리적인 방법을 통하여 평가할 수 있는 방법이 필요하게 되었습니다. 직관적으로 생각해봐도, 이러한 Generation task는 어떠한 정량적인 수치를 통하여 평가하기 어려운 부분이 있기 때문에, 이를 평가하는 방식에 대한 연구는 매우 중요했을 것이라는 생각이 듭니다. 이때 Language는 결국 인간과 유사하게 생성되는 것이 가장 합리적이기에 Human evaluator를 통해 평가하는 Human evaluation이 대두 되었는데, 합리적인 평가를 얻을 수는 있지만 비용의 문제로 인하여 모든 데이터에 대하여 Human evaluation을 진행하기는 현실적으로 어렵기에 LLM을 Evaluator로 사용하는 방법론들이 대두 되었습니다. 첫 번째 논문에서는, LLM evaluation이 사용할만한 지표임을 확인하고자 LLM을 통하여 생성된 Text를 Human evaluator와 LLM을 통해 평가한 후 성능을 비교하고 있으며, 이때 동일한 Evaluation을 위해 Task Instruction, Sample, Question을 전달하고 있습니다. 그 결과, LLM evaluation이 어느 정도 사용할만한 지표임을 보였습니다. 두 번째 논문에서 제시하는 GPTScore 방법론에서는 Generation model 기반의 Customized evaluation이며, Preidction의 Log probability를 활용하여 점수를 계산하고 있습니다. 세 번째 논문에서는 G-Eval 방법론을 제안하고 있는데, 이는 LM이 최종 답변을 생성할 때 중간 추론 단계를 생성할 수 있도록 하는 Prompting방법인 Chain of Thought를 통하여 Score probability를 추정하여 최종 점수를 산출하는 방법론이라고 볼 수 있겠습니다. NLP에서 Generation task는 특성상 어떠한 정량적인 지표를 통해서 절대적으로 평가하기는 어려울 수 있겠다라는 생각을 자주 하였는데, LLM을 통하여 나온 Output을 LLM을 통하여 Evaluation 한다는 것이 놀랍게 다가왔습니다. 또한, 최근 Time-series data에서도 LLM이 자주 쓰이고 있는데, 기존 Point-wise하게 평가하는 것보다 LLM을 통하여 Evaluation하는 방법론을 한번 시도해보면 좋을 수도 있겠다라는 생각을 하였습니다. 좋은 발표 정말 감사드립니다.


  • 2023-09-27 14:54

    이번 세미나는 Large Language Model 기반의 평가 방법론을 주제로 이루어졌습니다. 본격적으로 LLM이 다양한 Task들을 Instruction을 기반으로 생성 문제로 풀이함에 따라 평가 방법에 대한 연구들이 수행되고 있습니다. BERT와 같은 Encoder-only Model의 경우 대부분 Classification Task를 위해 활용되었고, 이 경우에는 예측값과 Gold Label이 동일한지 여부를 체크하는 방식으로 평가가 간단했습니다. 그러나 Decoder-only 형태인 LLM은 Response Generation, Story Generation 등 한 문장 이상을 생성해내는 다양한 Task에 활용되고 있습니다. 각 Task 마다도 어떤 Aspect를 중심으로 평가해야하는지가 다르고, 평가를 위해 Human Evaluation을 모두 하기에는 매우 많은 비용이 발생한다는 한계가 존재합니다. 이번 세미나에서는 (1) LLM이 Human Evaluation을 대체할 수 있는가에 대한 연구, (2) LLM의 생성 확률을 기반으로 한 GPTScore, (3) CoT를 기반으로 한 G-Eval 이라는 연구에 대해 소개해주셨습니다. 기존 Abstractive Summarization이라는 NLG Task만 고려해도 Source Text에 대해서 “잘” 요약한 문장이 무엇인지가 불명확하고 Human Annotation이 달라 평가를 단순히 ROUGE와 같은 Stochastic한 방법론이 나타내는 점수가 실제 모델의 성능을 잘 반영하는지에 대한 의구심이 있었습니다. 현재는 단순히 Downstream Task만 푸는 것을 넘어 LLM은 Data Augmentation, Evaluation 등 더 다양한 목적으로 활용되고 있습니다. 현재는 Model 기반 평가 지표의 타당성을 입증하기 위해 Human Annotation을 Upper Bound로 삼아 상관 계수를 보이고 있으나, Human Annotation 또한 완벽할 수 없다는 한계점이 있어 앞으로는 NLG 모델의 성능 평가를 위해 어떤 연구들이 이어질지 기대가 됩니다. 좋은 발표 감사드립니다.


  • 2023-09-28 14:13

    금일 세미나는 이유경 박사과정께서 “LLM based Evaluation” 이라는 주제로 3가지 논문을 다루었습니다. 첫 번째 논문에서는 LLM의 Human-like 평가 능력을 중점적으로 조명하며, 이를 통해 기존의 비용 문제와 일관성 문제를 어떻게 해결할 수 있는지에 대한 방안을 제시하였습니다. 두 번째 논문은 생성 확률에 기반한 평가 방법, 특히 GPTScore의 도입과 그 유효성에 관해 깊이 있게 탐구하였습니다. 세 번째 논문은 Chain of Thought라는 새로운 방식을 통해 LLM의 평가가 어떻게 더 효과적으로 이루어질 수 있는지에 대한 방법론을 소개하며, 이를 통해 기존의 평가 방식의 한계를 어떻게 극복할 수 있는지에 대한 실질적인 해답을 제시하였습니다. 각 논문별로 주요한 포인트와 중요한 내용을 체계적으로 정리해 주신 덕분에, 참석자들은 LLM의 평가 방법론에 대한 깊이 있는 인사이트를 얻을 수 있었습니다. 특히, 실제 연구나 업무에서 LLM의 평가를 어떻게 접근해야 할지에 대한 구체적인 지침과 팁을 얻을 수 있어 매우 유용했습니다. 좋은 발표 감사합니다.


  • 2023-09-28 16:30

    이번 세미나에서는 LLM based Evaluation을 주제로 총 3가지 논문을 다루어 주셨습니다. 본 세미나에서는 LLM의 등장과 함께 데이터셋의 구성과 evaluation 방법의 중요성이 강조되기 시작한 점을 언급하며, generation 기반의 모델 output을 합리적으로 평가하는 방법을 제안하였습니다. human evaluation의 경우, 비용이 매우 많다는 단점을 언급하며 large language model을 evaluator로 이용하는 경우에 대해 다루고 있습니다. 그리고 이 질문에 대해 3가지 주제에 적합한 논문을 소개하고 있습니다. 첫번째 논문에서는 생성된 텍스트를 human evaluator와 LLM을 통해 평가한 후 성능을 비교하고 있으며, 동일한 평가를 위해 task instruction, sample, question을 전달하고 있습니다. 두번째 논문에서는 evaluation protocol을 이용하고 있는데, 평가할 task에 대한 설명, 평가 aspect에 대한 customized definition, template 등으로 설명하고 있습니다. 마지막 논문에서는 언어모델이 최종 답변을 생성할 때 중간 추론 단계를 생성할 수 있는 prompting 방법을 이용하고 있으며, 성능이 보장되면서도 CoT demonstration 생성을 자동으로 하는 방법론을 제안하고 있습니다. 큰 질문을 던지고 세가지 논문을 엮는 흐름을 잘 보여주셔서 이해에 많은 도움이 되었습니다. 좋은 발표 감사합니다!


  • 2023-09-29 13:31

    이번 세미나는 "Large Language Model based Evaluation" 라는 주제로 LLM 기반의 평가 방법에 대해서 다뤄주셨습니다. 대표적으로 GPTScore와 G-Eval 에 대해서 설명해 주셨는데, human evaluation 대신 LLM으로 평가가 가능한 것인지에 대하여 서술하고 있었습니다. 최근 GPT-4에 대해서 단순히 chatbot의 형태로만 사용하는 것이 아닌 LLM을 통해 데이터를 생성하거나 human evaluation을 대체하는 용도로도 많이 활용되고 있어서 어떠한 방식으로 진행되는 지 궁금했는데 세미나 시간을 통해 살펴볼 수 있었던 좋은 시간이었습니다. LLM도 빠르게 버전이 바뀌어 나가면서 더이상 GPTScore를 사용하기 위해 모델의 token probability를 활용하지 못한다는 점도 알 수 있었습니다. Human evalution 또한 정확하거나 일관적이지 않는 상황에서 LLM을 어떻게 활용하여 평가할 것인지 그리고 어떠한 기준으로 평가 지표를 구성하는 것이 맞을 지에 대한 논의가 많이 되고 있는 것 같습니다. 이번 세미나는 그 흐름을 이해하기 위해 좋은 시간이었다 생각 됩니다. 좋은 발표 감사합니다.


  • 2023-09-30 12:34

    이번 세미나에서는 LLM based Evaluation라는 주제로 3가지 논문을 다루었습니다. 최근 LLM이 크게 발전하고 생활 속으로 다가오면서 LLM의 능력을 평가하는 task가 더욱 중요해지고 있습니다. 고정된 task에 대한 benchmark 성능으로는 LLM 능력의 핵심인 생성 능력을 올바르게 평가하기 어렵기 때문입니다. 또한 LLM이 인간 수준의 performance를 낼 수 있는 영역이 많아지고 있기 때문에 기존에 사람이 직접 평가해야 했던 과업을 LLM으로 대체할 수 있는지에 대한 연구가 활발히 진행되기 시작하였습니다. 이러한 상황에서 세미나에서 다룬 논문들은 LLM이 평가자로서의 가능성은 어느 정도 보여주지만, 아직 인간 수준의 평가를 위해서는 연구가 더욱 진행되어야 한다는 점을 보이고 있었습니다. 세미나를 통해 LLM evaluation의 장단점을 명확하게 파악할 수 있었고, 해당 논문과 연구 주제에 대한 발표자분의 생각을 들을 수 있었던 유익한 시간이었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-09-30 15:36

    이번 세미나는 LLM을 활용한 Evaluation task를 중심으로 세미나가 진행되었습니다. LLM의 성능이 비약적으로 발전함에 따라, 이들을 실생활에 필요한 과업에 적용하는 경우를 흔히 찾아볼 수 있습니다. 하지만, LLM의 발전 속도에 비해 생성 능력을 정량적으로 평가할 수 있는 방법론의 발전은 다소 더딘 것이 사실입니다. 세미나에서 소개해주신 GPTScore와 G-Eval은 LLM이 생성한 summary를 평가할 수 있는 방법론을 제안합니다. GPTScore는 GPT의 log probability를 곧 metric으로 사용하는 방법론입니다. 따라서, 생성 능력이 더 좋은 최신 모델일 수록 평가를 더 잘할 확률이 높아집니다. G-Eval은 COT를 적용하여 인간의 문제 해결 방식을 모사하도록 유도합니다. 두 방법론 모두 log probability를 사용하는데, 결과적으론 prompt에 따라 성능 차이가 크게 나지 않을까 생각하였습니다. 현 시점 LLM Evaluation의 가장 큰 한계는 아무래도 Human Annotation과의 correlation을 극대화 하는 방식으로 평가가 이루어지고 있다는 점입니다. 즉, 1. Human Annotation이 golden label로 사용할 수 있을만큼 과연 정말 적절할까 2. 가장 흔히 사용하는 Pearson, Spearman, Kendall correlation이 두 지표의 유사성을 올바르게 측정할 수 있는 적절한 지표인가 에 대한 의문을 해소해야 할 것 같습니다. 매우 중요한 과업에 대해서 꼼꼼하고 자세하게 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 감사합니다.


  • 2023-10-02 01:23

    이번 세미나는 LLM을 활용하여 NLG 과업의 결과물을 평가하는 방식 또는 평가 지표에 대한 주제로 진행되었습니다. NLG 과업의 결과물을 평가하는 데 있어 Rouge, BLEU, BERTscore등이 많이 활용 되었지만, 지금 수준의 NLG 과업들, 당장의 LLM이 출력하는 결과물을 평가함에 있어 많은 관점(aspect)이 고려되어야 합니다. 이에 따라 Human evaluation이 진행될 수밖에 없는 상황이 되었습니다. 하지만 Human evaluation은 비용이 무척 많이 들고 더불어 비록 동일 인물이 평가하더라도 일관성을 유지하기가 어렵다는 치명적인 단점이 존재합니다. 이에, LLM을 통해 정량적으로 일관적인 평가를 진행할 수 있을것인가에 대한 연구가 최근 들어 큰 주목을 받고 있습니다. 대표적인 지표 중 하나가 바로 GPTscore 일 것입니다. 이때 GPT는 Generative Pretraining의 약자로 생성모델을 기반으로 하여 생성모델이 출력하는 확률분포(log probability)를 이용하는 것이 큰 특징입니다. 확인하고자 하는 aspect에 대한 정의도 함께 입력함으로써 말 그대로 aspect 별 정량평가가 가능해진 것입니다. 결과적으로 LLM이나 여러가지 자연어처리 과업의 지향점은 사람처럼 말하고 생각하는 것이지만, 당장의 사람의 글이나 말을 평가함에 있어서 객관적인 기준이나 평가 지표가 있을 수 있을까라는 의문점이 있습니다. 즉, ‘사람처럼’, ‘사람답게’ 와 같은 표현안에 일반성도 포함되지만 개성 또한 담겨있다고 생각합니다. 문득든 생각은 공식 언어 시험(한국어능력시험, TOEFL 등)의 평가 기준은 그래도 좋고 나쁨의 기준이 가장 범용적이지 않을까 생각하며 이를 어떻게 하면 LLM이 따라갈 수 있을지 궁금함이 생겼습니다. 적절한 시기에 흥미로운 주제의 발표 준비해주셔서 감사합니다.


  • 2023-10-02 14:44

    이번 논문 세미나에서는 Large Language Model들의 평가 방법에 대해 다뤄주셨습니다. Large Language Model이 등장함에 따라 Generation 기반의 model output을 합리적으로 평가할 수 있는 방법이 필요했으며, 이에 따라 human evaluation의 중요성이 대두되었습니다. 하지만 이 방법은 매우 큰 비용을 요구하기 때문에 모든 데이터에 대해 수행하기 어려웠으며, 동일한 점수를 재현하기 어렵다는 문제가 있었습니다. 따라서 이러한 문제를 해결하고자 Large Language Model을 평가자로 사용하는 방법론이 제안 되었습니다. 발표자께서는 이러한 배경에 기반하여 Evaluation과 관련된 3개의 주제, 논문을 소개 해주셨습니다. LLM을 evaluator로 사용할 수 있는가, LLM의 생성확률을 기반으로 한 연구, LLM의 CoT Prompting을 기반으로 한 연구, 이 3개를 다뤄주셨습니다. 가장 흥미로웠던 것은 CoT Prompting을 기반으로 하는 G-Eval 방법이었으며 최종 답변을 생성할 때 중간 추론 단계를 생성할 수 있는 Prompting 방법입니다. 개인적으로 생각 했을 때 LLM의 힘을 가장 잘 활용하는 방법이 아닌가 하는 생각이 들면서도, 한편으로는 중간 추론 단계에서 각 결과에 대한 평가와 마지막 최종 답변에 대한 기준 등을 선정하는 방식 등이 evaluator의 성능에 큰 영향을 미치는 요소가 아닌가 하는 생각이 들었습니다. 이제는 모델이 아닌 evalutor를 evaluation하는 아이러니 한 상황이 나타났지만 빠르고 저렴하기 때문에 필요한 연구라 생각 되었습니다. 좋은 발표 감사합니다!


  • 2023-10-02 23:07

    이번 논문 세미나에서는 LLM evaluation(Large Language Model evaluation)을 주제로 3가지 논문을 다뤄주셨으며 과연 LLM이 human evaluator를 넘어서 evaluator로 사용될 수 있을까를 주제로 Evaluator로써의 LLM의 적합성, GPTScore, G-Eval에 대해서 자세히 설명을 해주셨습니다. 해당 분야에 대해 잘 모르는 상태에서, 발표를 통해 현재는 Human evaluation에 많이 의존하고 있으나 이는 비용적인 문제와 동일한 점수를 재현하기 어렵다는 점에서 model 기반의 Auto evaluation 그리고 이번 세미나에서 소개해 주신 LLM evaluation과 관련한 연구가 많이 진행되고 있음을 알 수 있었습니다. 첫 번째 논문에서는 GPT2로 prediction output을 생성한 뒤 human written stroy와 성능을 비교하는 방법론을 제안하고 있으며 IAA (Inter-Annotator Agreement), Kendall's tau correlation 등을 통해 합리적인 evaluation 과정을 제시한다는 점에서 개인적으로는 LLM이 evaluator로써 활용될 수 있는가에 대해 해당 논문이 좋은 시작임을 시사하고 있다고 느꼈습니다. 두 번째 논문에서는 생성 확률 즉, next token의 log probability를 기반으로 score를 계산하는 GPTScore를 제시하고 있습니다. GPTScore가 평가하기 모호한 aspect에 대해서 별도로 metric을 setting 하지 않고도 customized evaluation이 가능하다는 점에서 contribution을 가져가고 있지만 GPT3.5 turbo 이상의 모델에서는 log probability를 return 하지 않아 적용하기 어렵다는 단점을 가지고 있음을 알 수 있었습니다. 마지막 논문에서는 Auto-CoT 방식을 제안하며 evaluation step을 생성하여 score probaility를 estimation 하는 G-Eval을 제안하고 있습니다. 기존 GPTScore의 단점들을 극복하고자 많은 motivation을 가지고 있었으며 score를 direct로 쓰지 않고 score probability를 가중합 하는 방식이 인상적이었던 것 같습니다. 3개의 논문을 보면서 LLM evaluation이 아직 정립되지 않아 다양한 연구가 이루어지고 있음을 명백히 느낄 수 있었으며 앞으로 LLM evaluation과 관련하여 어떠한 sensation 한 방법론이 나올지 기대가 되었던 것 같습니다. 끝으로 3개의 논문을 메인으로 하여 LLM evaluation flow를 보여주신 발표자분의 역량에 감탄하였으며, 발표자의 개인적인 해석 또한 들을 수 있음에 좋은 시간이었던 것 같습니다. 유익한 발표를 준비해 주셔서 정말 감사드립니다.


  • 2023-10-02 23:11

    이번 세미나에서는 Large Language Model based Evaluation으로 진행되었습니다. 현재 NLP 연구 트렌드로 LLM이 자리 잡았고, LLM-based 연구에서 정량적으로 평가하기 어려운 태스크들이 많아졌습니다. 사람이 직접 정성평가 해야하는 경우가 많아졌고, 이에 따라 평가에 리소스가 많이 듭니다. 최근 GPT-4가 나오며 믿을만한 성능을 보여줌에 따라 LLM을 평가에 활용하기 시작했습니다. output에 대해 사람이 매긴 점수와 LLM이 매긴 점수의 상관관계를 구함으로써 LLM이 얼마나 사람처럼 평가하는 가를 파악할 수 있습니다. 모델이 직접 점수를 생성하는 방법과 모델의 token probability를 활용하는 방법, 모델이 평가할 때에 어떻게 평가할 것인지를 반영한 프롬프트 연구 등 다양하게 연구되고 있습니다. 해당 연구 주제는 사람의 평가가 옳은가에 대한 의문을 가질 수 있지만, 이에 대해서는 정답이 없기 때문에 정성평가시에 가이드라인의 중요성을 느끼게 되었고, 이 가이드라인을 잘 활용하여 LLM evaluator를 만들 수 있겠다는 생각과 LLM이 가진 어떤 능력을 활용하여 사람처럼 평가하게 만들 것인가에 대해 깊은 고민을 할 필요성을 느꼈습니다. 앞으로 LLM이 발전해감에 따라 사람이 한 평가와의 비교없이 LLM evaluator 자체를 어떻게 평가해야하는 가에 대한 고민도 필요할 거 같습니다. 좋은 발표 감사합니다.


  • 2023-10-02 23:34

    오늘의 세미나에서 이유경 박사과정께서는 "LLM을 이용한 evaluation"을 중점으로 논문들을 다루었습니다. G-eva과 GPTScore는 김중훈 석사과정 세미나 댓글에서도 언급한 적이 있다시피 현재 진행하는 워크샵에서 활발하게 사용되는 방법론이라 더욱 도움이 많이 되었습니다. 다른 논문에서는 "Chain of Thought"라고 불리우는 유명한 방법론에 대하여 설명을 해주셨습니다. 이 방법론은 LLM에게 중간논리를 제공하여 원하는 목적을 더욱 잘 수행할 수 있도록 하는 방법으로 prompting 전략에서 항상 고려되는 방법 중 하나입니다. 이를 통해 기존 평가 방법의 한계를 극복할 수 있는 구체적인 해결책을 제시했습니다. 각 논문을 자세히 설명해주심과 동시에 어떤 방법론은 현재 outdated인지 등에 대해서도 첨언을 해주시어 현재 trend를 파악할 수 있었습니다. 많은 도움이 되는 훌륭한 발표에 감사드립니다.


  • 2023-10-05 22:42

    이번 세미나에서는 LLM 기반의 평가 방법론에 관한 연구 세 가지를 함께 소개해 주셨습니다. 각각의 논문은 GPTScore: Evaluate as You Desire, Can Large Language Models Be an Alternative to Human Evaluation?, G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment이며, 세미나는 LLM 기반의 평가 방법론의 필요성을 중심으로 진행되었습니다. 우선 이전까지의 LM 연구에서는 당연히 최종적인 평가는 사람에 의한 것이었으며, 대체가 불가능 했었기 때문에 높은 비용이 요구됨에도 반드시 필요한 것이었습니다. 그러나 LLM이 발전하며 그 엄청난 성능은 평가에도 사용될 수 있음이 발견되었으며, 비용도 사람을 고용하는 것에 비해서는 훨씬 저렴하다는 것이 지적되었습니다. 각 연구에서는 어떻게 그를 실현하는지를 다루는데, 첫 논문 GPTScore에서는 LLM 사람처럼 평가할 수 있다는 것을 보였으며, 두 번째 논문에서는 LLM을 평가에 사용하기 위한 framework를 제시합니다. 마지막의 G-Eval 논문에서는 점점 더 output 이외에는 접근 불가능한 LLM이 증가함에 따라 결과만 가지고 평가를 할 수 있는 방법을 제안합니다. LLM 연구에 대한 이야기를 듣다 보면, 결국 비용에 대한 문제로 RQ이 던져진다는 것을 느끼게 되고 결국 연구라는 것도 정말 실용성을 기반으로 하지 않으면 외면 받는다는 생각을 하게 됩니다. 좋을 발표 감사합니다.


  • 2023-10-05 23:54

    이번 세미나는 LLM을 이용해서 LLM output들을 평가하는 것과 관련한 세 가지 논문으로(GPTScore: Evaluate as You Desire, Can Large Language Models Be an Alternative to Human Evaluation?, G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment) 진행되었습니다. 처음 세미나 주제를 접했을 땐 LLM을 이용해서 생성을 하고, LLM을 이용해서 평가를 한다는 게 어색하게 느껴졌는데, 세미나를 듣고난 후엔 충분히 타당하며, 언젠가는 human evaluation을 완전히 대체할 수 있을 것 같다는 생각이 들었습니다. 또한, 앞으로의 연구에선 GPTScore처럼 OpenAI의 정책에 따라 달라질 수 있는 평가 방식이 되지 않도록 설계하는 것이 중요할 것 같습니다. 좋은 발표 감사합니다!


  • 2023-10-09 19:29

    이번 세미나는 LLM based Evaluation를 주제로 진행되었습니다. 해당 세미나에서는 LLM의 결과물을 평가하는 방법을 주로 다루고 있습니다. human evaluation의 비용이 비싸고 퀄리티가 unstable하여 evaluation 또한 하나의 task로 취급하여 LLM이 evaluation을 진행 할 수 있을 것이라는 가정하에 접근합니다. 첫번째 논문은 LLM을 사용하여 human evaluation을 대체 할 수 있는지 평가 과정을 설계하였습니다. 두번째 논문에서는 GPTScore 방법론을 제안하여 log probability를 통해 점수를 계산하고 세번째 논문에서는 G-Eval을 통해서 Chain of Thought를 통하여 Score probability를 추정하는 방법을 제안하였습니다. Evaluation task를 위해서 evaluation을 하는 아이러니한 상황이 되었지만 항상 NLP의 evaluation에 대한 모호함과 human evaluation의 어려움이 있다고 생각하였는데 새로운 접근법인 것 같아 인상 깊었습니다. 좋은 발표 감사합니다.


전체 502
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10411
관리자 2020.03.12 0 10411
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9031
관리자 2020.03.12 0 9031
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10125
관리자 2020.03.12 0 10125
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (3)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 53
Doyoon Kim 2025.05.01 0 53
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (13)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 139
Sunghun Lim 2025.04.24 0 139
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (15)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 126
Suyeon Shin 2025.04.21 0 126
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 170
Woongchan Nam 2025.04.16 0 170
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 314
Kiyoon Jeong 2025.04.16 0 314
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 348
Hyeongwon Kang 2025.04.09 0 348
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 337
Jaehyuk Heo 2025.04.02 0 337
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 334
Jaehee Kim 2025.04.02 0 334
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 283
Jungho Lee 2025.04.02 0 283
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 259
Hankyeol Kim 2025.03.25 0 259

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호