| 번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
| 공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 16477
|
관리자 | 2020.03.12 | 0 | 16477 |
| 공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 15163
|
관리자 | 2020.03.12 | 0 | 15163 |
| 공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 16146
|
관리자 | 2020.03.12 | 0 | 16146 |
| 556 |
[Paper Review] NVIDIA Radio Series (15)
Woojun Lee
|
2026.05.04
|
추천 0
|
조회 576
|
Woojun Lee | 2026.05.04 | 0 | 576 |
| 555 |
[Paper Review] Graph-based RAG (15)
Doyoon Kim
|
2026.04.30
|
추천 0
|
조회 476
|
Doyoon Kim | 2026.04.30 | 0 | 476 |
| 554 |
[Paper Review] Recursive Transformer (16)
Jungi Lee
|
2026.04.13
|
추천 0
|
조회 687
|
Jungi Lee | 2026.04.13 | 0 | 687 |
| 553 |
[Paper Review] Why CLIP fails at Dense Prediction Task? (16)
Jinwoo Jang
|
2026.04.06
|
추천 0
|
조회 683
|
Jinwoo Jang | 2026.04.06 | 0 | 683 |
| 552 |
[Paper Review] Dynamic Large Concept Models (17)
Jaeyong Ko
|
2026.03.30
|
추천 0
|
조회 424
|
Jaeyong Ko | 2026.03.30 | 0 | 424 |
| 551 |
[Paper Review] Programming Refusal with Conditional Activation Steering (17)
Sunmin Kim
|
2026.03.10
|
추천 0
|
조회 1014
|
Sunmin Kim | 2026.03.10 | 0 | 1014 |
| 550 |
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (11)
Sunghun Lim
|
2026.03.01
|
추천 0
|
조회 806
|
Sunghun Lim | 2026.03.01 | 0 | 806 |
| 549 |
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin
|
2026.02.25
|
추천 0
|
조회 450
|
Suyeon Shin | 2026.02.25 | 0 | 450 |
| 548 |
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (11)
Jaehyuk Heo
|
2026.02.12
|
추천 0
|
조회 991
|
Jaehyuk Heo | 2026.02.12 | 0 | 991 |
| 547 |
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang
|
2026.02.10
|
추천 0
|
조회 1142
|
Hyeongwon Kang | 2026.02.10 | 0 | 1142 |
이번 세미나는 “Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation” 주제로 진행되었습니다. 본 논문은 요약 태스크의 평가 과정에서 Human Evaluation의 중요성을 강조하며, 평가 프로토콜에 따른 성능을 분석합니다. 해당 논문은 요약 평가 시 Reference Text 제공 유무, Atomic Fact 제공 유무 등 다양한 프로토콜을 통해 평가 절차를 분석합니다. 특히, 정보들을 작은 문장 단위로 분해한 Atomic Fact를 사용한 평가가 더 엄밀하다는 점을 통계적으로 보여줍니다. 이는 LLM을 이용한 다양한 태스크에서 Human/Automatic Evaluation의 어려움을 해결하는 데 큰 도움이 될 수 있습니다. Atomic Content Unit (ACU) 프로토콜을 통해 human annotator의 주관성을 줄이고, LLM이 생성한 텍스트를 평가하는 방법을 제안한 점이 인상적이었습니다. 이 접근 방식은 평가의 객관성을 높이며, 복잡한 평가 과정의 단순화를 기대할 수 있습니다. 발표를 통해 요약문 평가의 복잡성과 중요성을 다시 한번 깨닫게 되었습니다. 좋은 발표 감사합니다.
본 세미나는 김중훈 발표자님께서 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation" 라는 논문을 바탕으로 진행해주셨습니다. 특히 Human evaluation protocal에 대한 다양한 실험을 보여준 논문으로, Atomic Content Units라는 Summarization salience protocal을 제안 및 Benchmark를 제작한 것이 큰 기여점이라고 생각합니다. LLM-based metrics들이 연구 트렌드로 떠오르고 있는 상황에서, Salience-summary가 Input document의 중요한 정보만을 포함해야 한다고 주장하고 있습니다. 흥미로웠던 점은, atomic facts이라고 하는, 데이터셋의 모든 reference summary에 대해 분해하여 가이드라인을 작성한 것이었습니다. 학술적으로 보면 평가요소들을 분해한다는 것은 흥미로웠지만, 현실적으로 보면 데이터셋마다 요소들을 분해한다는 점이 비용이 많이 들고 번거로운 작업이라고 생각합니다. 따라서 요소들을 분해하는 모델을 만든다거나, 범용적으로 적용할 수 있을만한 방법론을 제안하면 어떨까도 생각하였습니다. 추가적으로 논문에서 automatic metric에 대한 평가를 수행하여 분색하였는데, reference-based metric들이 reference-free protocal에서는 음의 상관관계를 보이는 것이 기존에 연구자들이 바라봤던 rouge나 bleu같은 metric들의 한계를 정량적으로 보여준 좋은 실험이라고 생각했습니다. 좋은 발표 준비해주셔서 감사합니다.
금일 세미나는 Human Evaluation 과정의 중요성을 분석한 Revisiting the gold Standard : Grounding Summarization Evaluation with robust Human Evaluation을 중심으로 진행되었습니다. 다양한 NLP Evaluation 방법론 중 해당 논문은 요약 태스크를 중심으로 프로토콜에 따라 Evaluation을 진행하고 annotator 간의 일치도와 Automatic Evaluation 방법론들의 성능을 비교하고 있습니다. 이때 프로토콜이란 Reference Text 제공 유무, Atomic Fact 제공 유무 등 평가 절차를 의미합니다. 기존의 Summarization Task 평가 시에는 Reference Text, 원문, 요약문을 제공하여 평가를 진행하고 있는데, 이때, Reference의 중요도를 상세히 탐구할 필요성이 존재합니다. 또한, 사실 기반의 생성이 중요한 태스크인만큼 정보들을 매우 작은 문장으로 분해하여 작성한 Atomic Fact를 포함하는지 판단하도록 평가를 진행할 수도 있습니다. 실제로 Human Evaluation 결과를 통계적으로 분석한 내용을 살펴보면, Atomic Fact가 제공되는 경우 보다 엄밀한 평가가 가능한 것을 알 수 있습니다. 최근 LLM을 이용하여 다양한 태스크를 수행하는 연구들이 제안되는 환경에서 정답 Text를 마련하기 어려운 경우 Human/Automatic Evaluation을 진행하는데 상당한 어려움이 있는 것으로 알고 있습니다. 이때 해당 연구와 같은 Evaluation Protocol 관련 연구들을 통해 평가 과정이 단순화되거나 엄밀해질 수 있을 것으로 기대합니다.
오늘 세미나는 LLM Summarization evaluation을 위한 벤치마크 데이터 셋을 제안한 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation" 논문을 중심으로 진행되었습니다. 해당 논문은 주어진 Reference를 기반으로 human annotator가 evaluation을 할 때 subjectivity를 줄이기 위해 basic annotation unit을 단순화하는 Atomic Content Unit (ACU) protocol을 제안합니다. Reference에 대한 fact를 가장 작은 단위로 쪼개어 정리하는 ACU Writing에서는 저자들이 직접 작성하였습니다. 이렇게 작성한 ACU가 System-summary에 존재하는지 여부를 ACU-matching을 통해 판단합니다. 해당 파트가 사실상 LLM이 생성한 요약문이 본문의 핵심 팩트를 잘 포함하고 있는지 판단하는 Golden Label을 생성하는 과정으로, 논문에서는 MTurk test를 통과한 Annotator를 고용하여 annoatation을 하였다 합니다. 이렇게 구성한 데이터 셋을 활용하여 다양한 실험을 통해 본 연구를 검증하였습니다. 기존 LLM based Evaluation에 사용되는 데이터 셋을 면밀히 살펴보면 다소 납득하기 어려운 Golden Label이 부여되는 경우도 많은데, 이처럼 작은 팩트 단위로 unit을 분해하면 annotator의 객관성을 향상시킬 수 있는 reference가 되지 않을까 느꼈습니다. 좋은 발표 감사합니다.
금일 세미나는 '"Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation'라는 논문을 다뤄주셨습니다. 해당 논문에서는 1) Atomic Content Units (ACUs)라는 Summarization salience protocol을 제안하고 있고, 2) Robust Summarization Evaluation (RoSE) Benchmark를 제안하고 있으며 Summarization을 중심으로 다양한 Human evaluation protocol에 대한 실험을 보여주고 있음을 알 수 있었습니다. 해당 논문에서는 Reference Summary가 Gold Standard라는 가정 하에 Reference-based evaluation의 Subjectivity를 줄이고자 ACU Annotation Protocol을 제시하고 있습니다. ACU Annotation Protocol에서는 하나의 text sequence에서 fact를 추출하는 1) ACU Writing과 추출된 fact가 다른 sequence에 존재하는지 확인하는 2) ACU Matching으로 구성되어 있으며 이를 통해 얻어진 ACU matching annotation을 Summary score로 aggregation하는 방식을 제안하고 있습니다. Atomic facts를 추출하기 위해 저자들이 데이터셋의 모든 Reference Summary에 대한 ACU를 전부 작성하였고 System-generated Summary에 Reference Summary의 ACU가 존재하는지를 확인하고자 Amazon Mechanical Turk (MTurk)에서 Annotator를 고용하여 ACU Matching을 진행하고 있습니다. 실험 결과로는 RoSE Benchmark Analysis로 다양한 case study를 보여주고 있고 ACU annotation 외의 다른 protocol과의 비교, 그리고 기존 ROUGE, METEOR와 같은 Automatic metric과 비교 실험을 진행하고 있습니다. 해당 논문을 보면서 기존 단일 Reference을 Fact 단위로 세분화한 구조가 기존 Annotator의 평가를 최대한 객관적으로 유지하고자 노력했다고 생각하였고 저자들이 직접 작성한 ACU나 MTurk test를 통과한 Annotator들을 고용했다는 점에서 Evaluation task의 복잡함과 어려움을 간접적으로 느낄 수 있었던 것 같습니다. 좋은 발표 감사드립니다!
이번 세미나에서는 “Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation”이라는 연구에 대해 소개해 주셨습니다. Summarization Task는 여러 문장으로 구성된 Source Text로부터 특정 문장 혹은 문장들을 추출하는 Extractive 방식과 추출 방식이 아닌 Source Text를 대표하는 의미를 담은 문장을 생성하는 Abstractive 방식 등 각각 NLU 방식과 NLG 방식으로 자연어처리에서 많이 다뤄지는 Task입니다. 이중에서도 Abstractive 방식으로 대다수 Summarization Task 연구가 이루어짐에 따라 Sum, CNN-DM 등 다양한 벤치마크 데이터셋이 제안되었고 평가를 위해서는 ROUGE, BLEU 등 Lexical Matching을 기반으로 한 지표들이 주로 사용되었습니다. 그러나, 이러한 지표들 자체가 생성문의 품질을 평가하기에는 부적합하다는 지적이 꾸준히 있었고, 언어 모델을 활용해 평가를 하는 다양한 방법론들이 제안되고 있습니다. 해당 연구에서는 정답 레이블에 해당하는 Reference Summary로부터 마치 Knowledge Triplet과 같이 세부적인 단위의 Atomic Content Unit들을 사용해 평가를 하는 방식을 제안했습니다. 이는 Factual Hallucination 측정 방법론인 FACTScore와 유사한 방식을 취하고 있다고 느껴졌습니다. 다만, 소개해주신 방법론에서는 모델이 생성한 Summary에 대한 Atomic Content Unit과 Reference를 기반으로 만들어진 Atomic Content Unit과의 비교를 진행하고 있다는 점에서 사람의 작업이 조금 더 필요하다는 단점이 있다고 느껴졌지만, 그만큼 더 정확한 평가를 의도했다고 느껴졌습니다. 최근 Summarization Dataset을 이용한 경험이 있는데 요약이라는 것이 사람마다 잘 생성된 요약문의 기준이 다르다는 근본적인 면부터 시작해 평가가 상당히 어려운 Task임을 이번 발표를 통해 한 번 더 느낄 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 최근 언어 모델에서 화두인 Language model Evaluation과 관련된 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation에 대해 다뤄주셨습니다. 본 논문에서는 Atomic Content Units 이라는 Summarization salience protocol과 함께 Robust Summarization Evaluation (RoSE)라는 이름의 벤치마크를 제안하고 있습니다. 이 방법들을 통해 논문에서는 50가지 automatic metrics을 다양한 human evaluation protocol 하에서 분석하고 있습니다. 개인적으로 인상적이었던 부분은 실험으로 제안한 벤치마크와 평가 방법이 실질적으로 유효한지 다방면의 실험을 통해 보여주고 있습니다. 마지막으로 발표자분 께서 해당 논문을 통해 얻을 수 있는 결론으로 Alignment in metric evaluation, system evaluation, between NLP datasets and tasks로 3가지를 보여주고 계시는데 해당 논문을 정리하고 이를 어떻게 활용할 수 있는지 잘 정리해주신 것 같습니다. 좋은 발표 감사합니다!
금일 세미나는 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation 논문을 바탕으로 진행되었습니다. 해당 세미나에서는 기존 LLM이 생성해내는 Text를 특정 정량적인 지표로 평가하는 것은 어렵고 생성문을 평가하는 방법과는 맞지 않을 수 있으며, Human evaluation을 하기에는 cost가 크게 발생한다는 문제점에 기반하여, LLM이 Generate한 Text를 LLM을 통하여 평가하는 방법을 제안하고 있습니다. 이러한 경우, Test 시 평가 방법으로는 LLM의 평가 항목을 Human annotation 간 Correlation을 통하여 유사성을 측정하고, Human evaluation과 Automatic metrics 간의 correlation을 통해 Automatic metrics의 성능을 측정하고 있습니다. 이를 위하여, 해당 논문에서는 Basic annotation unit을 단순화하여 Reference-based evaluation의 subjectivity를 줄이고자 설계된 ACU Annotation Protocol를 제시하고 있습니다. 해당 과정은 ACU writing과 ACU matching 과정으로 이루어지는데, 먼저 ACU writing은 문장들을 더 이상 분해가 불가능한 Unit인 Atomic facts로 나누는 과정으로, 해당 과정에 대한 상세한 가이드라인을 정의하여 ACU를 작성하고 있습니다. 그 다음으로, ACU Matching 과정을 통하여 System-generated summary에 reference summary의 ACU가 존재하는지를 확인함으로써 전체적인 summarization performance를 평가하는 방식으로 이루어지고 있습니다. 전체적으로 잘 설명해주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.
이번 세미나에서는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation"에 대해 소개해주셨습니다. 해당 논문에서는 특히 Atomic Content Unit(ACU) protocol을 제안합니다. 이는 basic annotation unit을 단순화하는 것으로 reference-based evaluation의 subjectivity를 줄이는 목적으로 설계된 것으로, ACU writing과 ACU matching 크게 2가지 단계로 구성됩니다. ACU writing에서는 저자들이 모든 reference summary에 대해 상세한 가이드라인을 기준으로 ACU를 작성하여 활용하게 됩니다. ACU matching에서는 이렇게 작성된 ACU를 활용하여 system이 생성한 summary에 해당 reference에 존재하였던 ACU가 포함되었는지 여부를 판단하여 최종적인 system의 summarization 성능을 평가합니다. 최근에는 LLM을 이용한 automatic evaluation으로 human evaluation을 대체하려는 다양한 노력들이 있는 것으로 알고 있는데, 해당 논문에서는 결국에 이러한 automatic metric을 평가하기 위해서는 human의 역할이 일부분은 꼭 필요하다는 결론을 내리고 있어서 흥미로웠던 것 같습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation"이라는 논문을 중심으로 진행되었습니다. 해당 논문에서는 대규모 언어 모델(Large Language Models, LLM)이 생성하는 텍스트를 평가하는 기존의 정량적 방법들이 한계를 가지고 있음을 지적하고, 인간 평가(human evaluation)의 비용 문제를 해결하기 위해 LLM을 이용한 새로운 평가 방식을 제안했습니다. 구체적으로, 참조 요약(Reference Summary)에서 Knowledge Triplet과 유사한 Atomic Content Unit이라는 더 세분화된 단위를 이용하여 LLM이 생성한 텍스트의 정확성을 평가하는 접근법을 소개했습니다. 최근 들어 기존의 nlp에서 쓰이던 evaluation 방식을 넘어 다양한 evaluation 방식을 제안하는 흐름이 궁금했었는데, 발표자분께서 잘 설명해주셔서 재미있게 잘 이해했습니다. 좋은 발표 감사합니다.
이번 세미나는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation"라는 논문에 대해 소개해주셨습니다. 최근에 LLM을 평가하는데 있어서 cost가 많이 드는 human evaluation보다 더 객관적이면서도 비용 효율적인 전략을 찾으려는 시도들이 많이 이루어지고 있는 것 같습니다. 본 논문에서는 요약문 생성 과제에 대한 평가를 LLM을 통해 수행하고자 하였습니다. 저자들은 사람의 주관을 줄이고자 ACU anotation protocol을 설계하고 ACU writing과 ACU matching이라는 2가지 단계를 통해 평가를 수행합니다. 요약문 같은 경우는 기본적으로 요약 해야하는 원문의 내용이 존재하고 창의성이 요구되는 task가 아니기 때문에 본 논문의 방법처럼 상세한 가이드라인과 함께 ACU를 작성하고 ACU mathching을 통해 평가하는 방식이 매우 적합하다는 생각이 들었습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation"이라는 논문을 다루면서, 요약 평가의 중요성과 기존 평가 지표의 한계에 대해 다뤄주셨습니다. 해당 논문에서는 Atomic Content Units (ACUs)를 활용한 새로운 평가 프로토콜을 제안하고, 이를 기반으로 한 Robust Summarization Evaluation (RoSE) Benchmark를 소개하고 있습니다. 먼저, ACU를 활용한 평가 방법론은 기존의 평가 지표들이 놓치기 쉬운 요약의 세부 사항을 잡아내는 데 도움이 됩니다. 이는 요약의 중요한 부분을 파악하고자 하는 데 큰 도움을 줄 것으로 예상됩니다. 또한, 데이터셋의 모든 reference summary에 대해 ACU를 작성하고 이를 통해 모델이 생성한 요약과 비교하는 것은 평가의 객관성을 유지하는 데 도움이 될 것입니다. 그러나, 이러한 방법론이 모델 평가를 위해 사람의 작업이 필요하다는 단점도 있습니다. 이는 추가적인 비용과 시간이 소요된다는 것을 의미합니다. 따라서 이러한 프로토콜을 자동화하거나 효율적으로 적용할 수 있는 방법을 모색하는 것이 중요할 것입니다. 좋은 발표 감사합니다.
이번 세미나는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation" 논문에 대한 설명과 함께 진행되었습니다. 본 논문에서는 LLM을 통해 생성된 문장들을 평가하는 기존의 정량적인 방법들에 한계가 있음을 지적하면서, 이를 대체하기 위한 LLM을 활용한 새로운 평가 방법을 제안합니다. 더욱 자세하게는, Reference에 대한 fact들을 가장 작은 단위까지 나누는 방식인 ACU Writing에서는 저자들이 직접 이들을 작성하였습니다. 이렇게 작성한 ACU가 System-summary에 존재하는지 여부를 ACU-matching을 통해 판단합니다. Eval4NLP를 시작으로 생각보다 LLM을 이용하여 description이나 caption을 evaluation 할 일이 생기고 있는데 이렇게 논리적인 평가방법을 제시해주셔서 활용하기 좋을 거 같습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 "Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation" 논문에 대해서 발표해 주셨습니다. 해당 논문은 Summarization 평가의 새로운 기준을 제시하며 특히 인간 평가의 중요성과 구체성을 강조하는 연구로 인상 깊었습니다. 기존의 자동화된 Metric이 가진 한계를 극복하기 위해 Atomic Content Units(ACUs)의 도입과 이를 활용한 평가 프로토콜을 도입하였습니다. 연구자들이 직접 ACU를 작성하고 이를 바탕으로 요약문의 품질을 평가하는 과정은 매우 구체적으로 구상되었으며, 이러한 접근 방식은 평가의 정확성을 높일 수 있다는 점에서 매우 흥미로웠습니다. 그러나 리뷰어들은 이 방법이 비용과 시간이 많이 들며, 현실적인 어려움이 있을 수 있다고 지적합니다. 특히, 데이터 셋마다 ACU를 분해하고 평가하는 과정이 번거로울 수 있다는 점에서, 이를 보완할 수 있는 범용적인 방법론의 필요성을 제기했습니다. 또한, Human Evaluation과 Automic Evaluation Metric 간의 상관관계를 탐구한 실험 결과는 기존 Metric의 한계를 명확히 보여주며, 평가 방법론에 대한 새로운 시각을 제공하였습니다. 발표를 통해 이러한 복잡하고 세심한 평가 과정의 필요성과 동시에 그 실행의 어려움을 이해할 수 있었으며, 앞으로 이 분야의 연구가 어떻게 발전할지에 대한 궁금증과 기대감을 갖게 되었습니다. 해당 연구가 제안하는 방법론은 평가 과정을 단순화시키거나 엄밀하게 만들 수 있는 가능성을 열어줌으로써, 요약 평가 분야에 앞으로도 큰 발전을 이룰 것이라고 생각됩니다. 좋은 발표해 주셔서 감사합니다.