금일 세미나에서 다뤄주신 논문은 “SummEval: Re-evaluating Summarization Evaluation”로, 신경망 기반 문서 요약 모델 및 요약 평가 기준 정리/비교 논문이었습니다. 이번 학기에 문서요약 관련 프로젝트들을 수행하면서 결과에 대한 평가를 어떻게 수행할 수 있을 지에 대해 굉장히 많은 고민을 했었는데, 이와 관련한 세미나를 진행해주셔서 매우 흥미롭게 경청할 수 있었습니다.
문서요약은 대다수 Rouge 스코어를 이용해 정량적인 평가를 수행하지만, 이는 단순히 동일한 단어와 순서만을 이용해 판단하기 떄문에 제대로 된 평가가 힘들게 됩니다. 따라서 최근 논문들은 Rouge 스코어와 함께 Accuracy(생성된 요약문이 소스를 얼마나 정확하게 표현하는가를 보는 지표)와 Fluency(단순한 언어적 특징을 보는 지표) 같은 수동 평가를 도입하여 요약 모델을 평가합니다. 여기서 볼 수 있듯이 현재 문서 요약 모델 평가의 문제점은 (1) 오래되고 불완전한 평가 기준이 여전히 사용된다는 점과 (2) 요약 모델에 대한 통일된 평가 방식이 없다는 점이라고 논문에서는 주장하고 있습니다. 저자는 이와 관련하여 해결책으로 이제껏 존재한 (1) 평가 방식 및 모델을 총정리하고, (2) 모델의 결과물에 대해 평가 방식을 적용, (3) 모델 요약문 및 평가 metric을 모듈화를 수행하였습니다.
문서요약 프로젝트 시 수동평가라는 개념을 몰라 직접 문항을 만들어서 설문을 수행했는데 이번 기회에 수동평가에 어떠한 것들이 있나 알수 있어서 유익했습니다. 단순히 저희가 했던 것처럼 설문 문항의 점수로 성능을 확인하는 것이 아니라, 수동 평가 간의 차이, 분산, 상관계수 등을 이용하여 결과를 분석할 수도 있다는 것을 깨달았습니다. 좋은 발표 감사합니다!
Jungho Lee
2021-08-15 16:49
금일 세미나에서는 요약 task 에서 사용되는 평가방식을 정리하고, 관련 논문들에 대해서 정리했습니다. 평가지표에서 담지못하는 것을 예시로 보여주며, 새로운 평가지표를 낸 다는 것 자체로도 상당히 큰 의미를 가진다고 생각합니다. 사실 대부분의 연구, 논문들이 sota 모델을 0.1%의 성능차이로 이겨보려는 노력이 많습니다. 그러면 논문이 되는거고, 장점을 찾아내면 되는 그런 주의로 연구가 많이 진행된다고 생각합니다. 그래서 더욱이 이런 평가지표에 대해 의문을 제시하는 것은 시도가 적은것 같습니다. 근본적인 문제를 현실적으로 반영할 때 이런 평가지표가 수정된다고 생각합니다. 연구 뿐만아니라, 현업에서의 지식 및 고충을 이해하는 것이 또 좋은 방향이 연구가 될 것 같습니다.
Jounghee Kim
2021-05-31 13:37
금일 세미나에서는 요약과 관련하여 통일성 없이 사용되던 평가 방식들을 총 정리한 Re-evaluationing Summarization Evaluation:SummEval 논문에 대해 설명해 주셨습니다. 이 논문은 20여가지의 최신 요약 모델들에 대핸 모든 방식을 적용하여 평가를 수행하고 기존 평가 방식의 문제점을 지적하였습니다. 요약 분야에서는 평가에 대한 객관적인 지표가 부족한 상황이며 정량적인 지표도 요약 TASK를 정확하게 평가하지 못하고 있습니다. 따라서 해당 논문의 저자는 각 평가들이 어떠한 문제점을 갖고 있는지 전문가(교수) 정성적 평가를 함께 제시하며 실험하였습니다. 현재까지 나온 요약 논문들의 실험결과를 평가하기 위하여 각 저자로부터 모델과 실험결과를 받았다는 사실이 굉장히 인상적이었으며, 다양한 관점에서 평가를 진행하였다는 사실이 굉장히 놀라웠습니다. 다만 결론적으로 요약분야에서 활용할 수 있는 가장 객관적인 평가지표에 대해서 제시하지 못하였다는 사실이 안타깝습니다. 좋은 논문과 좋은 설명 감사합니다.
Seungwan Seo
2021-06-07 02:58
문장을 생성하는 연구에 대한 정량적인 지표는 여러 연구자들이 꾸준히 문제 의식을 가지고 있는 분야입니다. 이는 언어의 특성상 같은 의미를 여러가지 방식으로 표현할 수 있기 때문일 것입니다. Vision에서 대표되는 생성 모델은 GANs이며 많은 연구자들이 정량적인 metric을 만들고자 Inception score와 Fréchet Inception Distance 와 같은 아이디어를 제안하였습니다. 하지만 여전히 정량적 평가에 대한 한계가 명확한 상황이라 여전히 많은 연구들에서 정량적인 성능과 함께 독자들이 정성적인 판단을 할 수 있도록 생성된 이미지를 다수 보여주고 있습니다. 글을 생성하는 분야에서도 이처럼 metric에 대한 고민을 하고 답을 찾아가는 시간을 보내고 나면 자동평가와 수동평가를 함께 진행하는 날이 오지 않을까 라는 생각이 들었습니다.
Kyoungchan Park
2021-06-10 14:40
해당 연구 분야가 흐름을 가지고 잘 정리되기 위해서는 정확한 평가 방법론이 중요하다고 생각됩니다. 제가 관심있어하는 adversarial defense 연구 분야도 언뜻 성능 평가가 명확할 것 같지만 gradient obfuscation이라는 문제로 인해 때때로 제안한 방법론의 성능이 과대 평가 되곤 합니다. 마찬가지로 문서요약 task도 task의 특성상 그 성능을 잘 측정하기 매우 어려운 것으로 보입니다. 이렇게 잘못된 평가 방법이 불러올 수 있는 폐단은 해당 연구 분야의 방향성이 중구난방이 된다는 것 같습니다. 좋지 못한 방법론을 좋게 평가하고 좋은 방법론을 나쁘게 평가함으로써 어떤 것이 진짜 좋은 방법론이고, 어떤 것이 좋지 않은 방법론이지 헷갈리게 하기 때문입니다. 본 세미나에서는 그 부분을 개선하기 위해 기존 평가 방법론의 문제점을 제기하고 새로운 평가 방법론을 제안하였습니다. 세미나를 통해 어떤 부분이 문제였고, 어떤 부분을 개선하였는지 잘 이해할 수 있었습니다. 앞으로 문서 요약이라는 연구 분야가 좀 더 확실한 방향성을 가지고 발전하기 위해서는 이러한 평가 방법론에 대한 고찰이 계속되어야 할 것 이라는 생각을 하였습니다. 좋은 발표 감사합니다.
Hyungseok Kim
2021-06-17 23:11
해당 세미나 시간에는 SummEval: Re-evaluation Summarization Evaluation 을 주제로 다루어보았습니다. 논문 제목에서도 유추할 수 있듯이 해당 논문에서는 문서요약모델의 평가 방식에 대한 새로운 지표를 제시하고자 하였습니다. 기존 문서요약에서 널리 사용되는 자동평가 방식에는 대표적으로 ROUGE score와 METEOR가 널리 사용되어 왔습니다. 하지만 이러한 지표방식은 현재까지 계속되는 문서요약 연구들이 계속해서 사용하고는 있지만, 오래전에 제안된 이러한 지표를 계속해서 사용함으로 인해 문서요약의 발전을 저해하고 있다고 해당논문에서는 주장하였습니다. 따라서 해당 논문에서는 ROUGE를 포함하여 새로이 14개의 자동평가 기준과 4개의 수동 평가 기준을 제시하고 기존 연구들의 성능을 보여주었습니다. 대학원생이 연구를 수행하고 논문을 작성하는 과정에서 과거 선행연구의 metric들을 기준으로 실험을 수행하고 비교하는 과정은 루팅화된 과정이라고 생각됩니다. 하지만, 과거의 metric에 매몰되어 다양한 시각에서의 연구 방향을 억제할 수도 있다는 해당 논문에서의 주장은 많은 점을 시사해주고 있다고 생각합니다. 이러한 관점에서 이러한 새로운 metric을 제시하는 본 세미나의 주제는 많은 것을 배울수 있었습니다. 끝으로 취업준비기간임에도 불구하고 본 세미나를 준비한 발표자에게 감사의 인사 전합니다.
Hyeyeon Kim
2021-08-16 01:16
이번 세미나는 신경망 구조를 활용하는 문서 요약 모델에 대한 소개와 그 평가에 대한 세미나였습니다. 우선 예전에는 ROUGE score의 단점들이 존재함에도 불구하고 이 평가 기준이 계속 사용되었고, 요약 모델에 대한 통일된 평가 방식이 존재하지도 않았습니다. 이를 해결하는 총 14개의 평가 metric이 있는데, 이는 각각 수동 평가와 자동 평가로 나눌 수 있습니다. 우선 수동 평가의 경우, coherence, consistency, fluency, relevance가 기준이 되었고, 자동 평가는 rouge와 BERT를 기반으로한 평가 지표로 나눌 수 있습니다. 금일 세미나에서 제안된 방법론은 통일성이 없던 평가 방식들을 총 정리했다는 점에서 의미가 있고, 최신 요약 모델들에 대해 평가를 수행하였다는 점에서 가치가 높습니다. 정리가 잘 되어 이해하기 쉬운 세미나 감사합니다.
Myeongsup Kim
2021-06-19 12:17
특정한 Task를 수행하기 위한 Model을 설계하였다면, 해당 Model이 어느 정도의 성능을 갖는지 평가하는 것은 필수적인 절차입니다. 이 과정에서 데이터의 특성에 따라 다양한 평가 지표들을 활용합니다. 하지만 자연어의 경우 동일한 의미를 다르게 표현할 수 있다는 특징으로 인해 현재까지도 Generation Task에 관한 정량적인 평가 지표들은 많은 한계를 가지고 있습니다. 또한 평가 지표가 갖는 한계는 분야의 발전에 영향을 미치기 때문에 좋은 지표를 설계하는 것은 좋은 모델을 설계하는 것과 동일하게 중요합니다.
오늘 세미나에서는 문서 요약 Task에 널리 사용되는 지표들의 한계에 대해서 알아보고, 정량적/정성적으로 요약문을 평가할 수 있는 다양한 지표를 다루었습니다. 개인적으로는 아직까지도 언어의 형태에 관한 지표가 대다수이고, 의미적인 요소를 측정하는 정량 지표의 개발은 더딘 편으로 판단됩니다. 언어에 내재하고 있는 의미를 반영하는 지표를 개발하는 것은 매우 난이도 있는 작업이겠으나, 언젠가 반드시 해결되어야 할 일이라고 믿고 있습니다. 오늘 소개해 주신 논문이 문서 요약 Task에 사용되는 평가 지표에 관해 다양한 관점에서 초석을 닦아 놓았다는 생각이 들며, 향후 추가적으로 어떠한 지표들이 개발될지 지켜보고 싶습니다. 좋은 발표 감사합니다.
Hoonsang Yoon
2021-06-19 20:10
문서 요약의 성능을 평가하는 대표적인 Metric은 ROUGE Score이나 단순히 생성된 요약문과 정답 간의 '겹치는 정도'로 평가하여, 요약문 평가에 있어 다양하고 창의성 있는 요약을 평가하기 어려웠습니다. 이런 문제로 인해 다른 Metric을 사용하거나 수동평가로 전환하는 경우가 있긴 하지만, 문제점을 안고도 ROUGE를 사용하는 경향이 큽니다. 본 세미나의 제목을 보고 가장 기대했던 부분은 현재 ROUGE Score의 문제를 완벽하게 해결하여 요약 평가를 제대로 달성할 수 있는 새로운 Metric의 소개였지만, 14개의 자동 요약 평가 기준, 4개의 수동 평가 기준을 토대로 23개의 모델에 적용하여 동일 선상에서 비교하는 것이었습니다. 즉, 지금까지 연구된 문서 요약 분야의 요약문과 같은 논문 및 모듈이며 이론을 정리하는 Survey Paper는 아니지만, 결과 요약에서 현황 및 흐름 파악에 많은 도움이 될 것 같습니다. 항상 필요한 내용을 전달해주시는 발표자님께 감사합니다.
Jaehyuk Heo
2021-06-26 18:53
이번 세미나는 요약 task에서 평가에 대한 문제점을 언급하며 지금까지 연구된 약 20여가지의 추출 및 생성 모델에 대해서 논의하는 “SummEval: Re-evaluating Summarization Evaluation”이라는 논문에 대해 소개해주셨습니다. 요약 모델에 대해서는 일반적으로 사용되는 ROUGE가 있지만 생성요약이나 유의어와 같은 경우 제대로된 평가가 어렵다는 단점이 있습니다. 더불어 사람에 의한 평가 또한 많은 비용이 들어가기 때문에 이러한 요소가 요약 모델의 발전에 있어서 방해가 되는 요소로 언급합니다. 본 논문에서 인상 깊었던 점은 20여가지의 모델에 대해 14개의 자동 평가 결과와 4개의 수동 평가 결과를 정리하고 각 문제점을 파악한 것이었습니다. 하지만 아쉬운 점은 여전히 이를 극복하기 위한 평가지표가 부재라는 점이었고 이러한 문제점을 해결하기 위해서는 아직까지 연구가 더 필요한 것으로 생각됩니다. 요약 모델에서 뿐만 아니라 평가 지표는 다양한 분야에서 완전하지 않다는 점이 한계점이라고 생각되는데 상황에 맞는 평가 지표를 적절하게 선택하고 부족한 부분에 대해서 개선점을 찾아 내는 것이 앞으로의 중요한 연구 방향이지 않을까 생각됩니다. 좋은 발표 감사합니다.
Kyoosung So
2021-06-26 21:51
이번 학기에 비정형 프로젝트를 수행하면서 문서 요약을 어떻게 잘 평가할 수 있을 지에 대해 굉장히 많은 고민을 했었는데, 관련한 세미나를 진행해주셔서 반갑고 흥미로웠습니다. 문서요약은 대다수 Rouge 스코어를 이용해 정량적인 평가를 수행하지만 사실 높은 Rouge 스코어가 좋은 요약을 대표하는가 하면 그건 또 아니기 때문에, GAN과 같이 무엇보다 정성적인 평가가 중요하다고 생각합니다. 특히 생성요약이 pretrained-LM의 발전에 따라 활발히 연구가 되고 있는 현 시점에서는 더욱 그렇다고 생각하는데, 개인적으로 요약 task의 가장 큰 어려움은 '요약' 자체의 모호함에 있다고도 생각합니다. 평가하는 사람의 주관성은 물론 해당 task를 얼마나 접하고 실제로 요약을 해보았는 지에 따라서도 평가가 크게 갈릴 수 있는 분야라고 생각하기 때문에, 문서요약 도메인이 앞으로 발전하는 데에는 보다 통일성있는 관점에서의 평가가 중요하다고 생각합니다. 앞으로 문서 요약 task를 수행할 때 많이 참고하게 될 좋은 발표자료를 만들어주신 점 감사합니다.
Donghwa Kim
2021-05-20 17:59
이번 세미나에서는 문서요약에서 사용되는 평가지표에 대해서 발표해주셨습니다. Rouge score의 단점은 언어의 의미상 크게 틀리지 않지만 tokenize에 따라 예측결과의 성능이 매우 다를 수 있다는 것입니다. 대안으로 임베딩된 공간으로 해석될수 있는 문장벡터들의 유사도의 차이를 계산하는 방법이 있었으며, 대체적으로 문장 token들의 N-gram 일치성을 가지는 score들이 많은것 같습니다. 마지막으로 수동평가방식으로 평가자들의 정성적인 스코어를 논리적인 규칙에 의해서 산출하는 방법도 있었습니다. 좋은 발표 감사합니다.
Takyoung Kim
2021-05-20 17:59
문서요약 task의 평가 지표는 자동평가와 수동평가로 구성되고, 자동평가의 가장 대표적인 지표는 ROUGE score입니다. 그리고 이 지표는 이전부터 요약 성능을 잘 반영되지 못한다는 지적이 있었습니다. 수동평가는 사람이 직접 몇 가지 척도에 대해 평가를 진행하여 신뢰도가 상대적으로 높지만 현실적으로 많은 데이터에 대해 수행할 수 없다는 한계가 있습니다. 따라서 본 논문에서는 새로운 자동평가, 수동평가 기준을 제안합니다. 기존 좋은 성능을 보였던 논문의 저자들에게 직접 연락을 하여 추론 결과물을 얻어낸 것이 개인적으로는 놀라웠습니다. 전문가와 일반인의 평가가 상이할 수 있음을 인지하고 적절하게 비교한 부분도 인상깊었습니다. 모델만큼 중요한 것이 모델이 현실의 문제를 잘 해결할 수 있는지 판단하는 지표라 생각하는데, 이 논문을 기점으로 문서요약 모델의 평가 지표가 더 현실적으로 반영될 수 있으면 좋겠습니다. 좋은 발표 감사합니다.
Subin Kim
2021-05-20 20:35
금일 세미나에서 다룬 논문은 SummEval에 대한 것이며, 문서 요약문의 여러가지 평가 방식과 특징을 정리 비교한 내용이 공유되었습니다. 평가 방식에는 크게 자동평가와 수동평가가 있는데, 자동평가는 정답문장이 요약문과 얼마나 겹치는지 일정 기준/수식에 의해 계산되며, 수동평가는 사람이 직접 평가하는 것으로 coherence, consistency, fluency, relevance를 기준으로 일반 평가자와 전문가가 평가를 하게 됩니다. 이번 세미나를 통해 고전적인 자동평가 방식인 ROUGE score외에 다른 여러가지 metric에 대해서도 새롭게 알게 된 것이 많았습니다. 또한, 발표 내용 중, 정답 요약문도 수동평가에서 좋은 평가를 받지 못하였다는 실험 결과가 흥미로웠습니다. 그리고 자동평가는 결과는 그 수치 자체가 절대적으로 의미가 있지 않다는 점, 그리고 수동평가는 정답문의 존재 여부, 평가자의 주관성 개입 여부 등에 따라 평가 결과가 다르게 해석될 수 있다는 점을 짚어 주셔서 앞으로 연구 과제에서 평가 지표를 활용하게 된다면, 어떤 기준을 바탕으로 고려하여 지표를 선택해야하는 지 더 잘 고민할 수 있을 것 같습니다. 깔끔한 발표 감사합니다.
Hyeongwon Kang
2021-05-23 01:00
이번 세미나에서는 문서요약 task에서 사용되는 평가 기준에 대한 정리와 분석에 대한 주제로 진행 되었습니다. 문서 요약에서의 평가 기준은 크게 정답 문장과 모델이 도출한 요약문이 얼마나 겹치는지를 평가하는 자동 평가와 사람이 직접 평가하는 수동 평가가 있습니다. 이전까지의 문서 요약 task에서 사용되는 평가 기준의 문제점들은 오래되고 불완전한 평가 기준이 여전히 사용되고 있다는 것이고 통일된 평가 방식이 없었다는 점입니다. 이를 해결하기 위해서 발표해주신 논문에서 평가 방식 및 모델을 총 정리하고 모델의 결과물에 대해 평가 방식을 적용한 것을 비교하고 모델 요약문 및 평가 metric을 모듈화하였습니다. 총 14개의 평가 기준을 정리하였습니다. 평가방식을 비교하기 위해 23가지 모델의 결과를 전달 받았다는 것이 놀라웠으며, 한 편으로는 제대로된 결과를 전달 받았을까 라는 의심이 들기도 하였습니다. 또한 본 논문에서는 따라서 어떤 평가지표를 사용해야하는지는 언급하지 않았다는 것이 아쉬웠으나, 자동평가와 수동평가의 correlation이 높은 평가기준을 복합적으로 사용하면 괜찮지 않을까라고 발표자분께서 의견을 말씀해주셨습니다. 평가 기준이 많기 때문에 헷갈리기 쉬운데 발표자께서 관련된 평가기준에 대해 이야기를 할때 반복적으로 평가 기준이 무엇인지를 발표 슬라이드에 표시를 해줘서 이해가 쉬웠던 것 같습니다. 좋은 발표 감사합니다.
Yunseung Lee
2021-06-28 15:24
금일 세미나는 Neural Network 기반의 문서요약 모델의 평가 기준들에 대한 비교를 주제로 진행되었습니다. 본 논문에서는 총 14개의 evaluation metric에 대해 리뷰하였습니다. 요약성능 평가 시, 수동평가와 자동평가로 나누어 볼 수 있는데, 수동평가는 coherence, consistency, fluency, relevance 등의 기준에 대해 사람이 5점 scale로 평가를 한 것을 의미합니다. 반면 자동평가는 rouge 기반과 bert 기반 평가지표로 나누어 볼 수 있습니다. 발표를 통해 현재 문서요약의 평가 metric의 한계점을 알 수 있었습니다. 또한 특정 분야가 발전하기에 정량 metric의 중요성 또한 체감할 수 있었는데, 정답요약문과 모델이 생성한 요약문 간의 ROUGE score만을 기준으로 문서요약 성능을 발전시킨다면, 정답 요약문에 있는 단어를 많이 포함할수록 좋은 요약문이 되면서, coherence나 relevance와 같은 부분은 간과하게 될 수 있습니다. 좋은 발표 감사합니다.
Jina Kim
2021-06-30 10:47
이번 세미나는 문서 요약에 대한 정량 지표에 대한 내용으로 진행되었습니다. 문서 요약 프로젝트를 진행하면서 Rouge score를 사용해보니, 정답 문장과 생성 또는 추출 문장이 완벽하게 matching될 때 가장 좋은 요약문임을 가정하다보니, 동의어나 유사한 의미를 잡아내지 못해 정성 평가를 추가로 진행해야 했습니다. 본 논문에서는 자동, 수동 평가 지표를 제안했는데 전문가 평가와 일반 평가자의 평가의 차이를 반영한 것이 인상 깊었습니다. 요약 task에 있어서 의미적인 일치성을 잡아내는 정량 지표가 나온다면 사람이 생성하는 요약문처럼 더욱 자연스러운 요약문을 생성하는 모델을 학습하는데 큰 도움이 될 것이라 생각합니다. 좋은 발표 감사합니다.
Jeongseob Kim
2021-06-30 21:02
이번 세미나는 SummEval: Re-evaluation Summarization Evaluation 연구에 대해 진행되었습니다. 문서요약 task는 추출요약을 너머 생성요약까지 많은 모델의 개선과 발전이 이뤄지고 있는 분야입니다. 하지만, 그럼에도 불구하고 모델 평가방식에는 의문점이 제기되어왔습니다. Rouge score의 경우, n-gram exact matching기반이기에 새로운 re-phrasing을 토대로하는 생성요약문의 평가에는 그 본질적인 평가를 하기에 한계점이 있었습니다. 더욱이, 수동평가로 본다면, 그 평가 기준이 모두 달라 객관적이고 통일된 평가기준이 다소 미흡합니다. 본 연구는 이러한 평가기준의 한계가 요약 모델의 발전을 저해한다고 보고, 이에 대한 논의를 위해 이를 실증하고자 했습니다. 총 28개의 평가기준, 23개의 최신 문서요약 모델을 본 연구에서 정리하였습니다. 그리고 모든 metric을 사용해 각 모델들을 모두 평가해, 현 상황의 문제점을 직접 보여주었습니다. 연구를 통해, 자동평가 시, 수치가 높다고 무조건 좋은 것도, 수동 평가로 무조건 좋은 요약문을 찾아낸다는 것도 확인할 수 있었습니다. 이번 발표를 통해, 문서요약 모델의 평가 결과 해석 시, 조금 더 신중히 접근해야 함을 확인할 수 있었습니다. 좋은 발표 감사합니다.
Heejeong Choi
2021-07-07 18:32
금일 세미나는 "SummEval: Re-evaluating Summarization Evaluation"라는 주제로 진행되었습니다. 본 발표에서는 신경망 기반의 문서 요약 모델에 대한 요약과 평가 기준에 대한 비교가 소개되었습니다. 개인적으로 extractive/abstractive summarization에 대한 고전적인 방법들을 사용한 적이 있어 요약 분야에도 관심이 있었는데, 딥러닝 기반의 summarization 모델의 큰 흐름을 한 번에 살펴본 수 있어서 유익한 세미나였습니다. 더불어 summarization의 경우 정량적인 평가 방법에 한계점이 많은데 오늘 다양한 평가 지표도 접할 수 있어 더 유익했습니다. 이러한 내용을 접하면서 이상치 탐지에서도 평가 지표의 한계점을 파악하고 발전된 평가 지표를 제안하는 것도 좋은 연구가 될 수 있겠다는 생각이 들었습니다. 좋은 발표 감사합니다.
금일 세미나에서 다뤄주신 논문은 “SummEval: Re-evaluating Summarization Evaluation”로, 신경망 기반 문서 요약 모델 및 요약 평가 기준 정리/비교 논문이었습니다. 이번 학기에 문서요약 관련 프로젝트들을 수행하면서 결과에 대한 평가를 어떻게 수행할 수 있을 지에 대해 굉장히 많은 고민을 했었는데, 이와 관련한 세미나를 진행해주셔서 매우 흥미롭게 경청할 수 있었습니다.
문서요약은 대다수 Rouge 스코어를 이용해 정량적인 평가를 수행하지만, 이는 단순히 동일한 단어와 순서만을 이용해 판단하기 떄문에 제대로 된 평가가 힘들게 됩니다. 따라서 최근 논문들은 Rouge 스코어와 함께 Accuracy(생성된 요약문이 소스를 얼마나 정확하게 표현하는가를 보는 지표)와 Fluency(단순한 언어적 특징을 보는 지표) 같은 수동 평가를 도입하여 요약 모델을 평가합니다. 여기서 볼 수 있듯이 현재 문서 요약 모델 평가의 문제점은 (1) 오래되고 불완전한 평가 기준이 여전히 사용된다는 점과 (2) 요약 모델에 대한 통일된 평가 방식이 없다는 점이라고 논문에서는 주장하고 있습니다. 저자는 이와 관련하여 해결책으로 이제껏 존재한 (1) 평가 방식 및 모델을 총정리하고, (2) 모델의 결과물에 대해 평가 방식을 적용, (3) 모델 요약문 및 평가 metric을 모듈화를 수행하였습니다.
문서요약 프로젝트 시 수동평가라는 개념을 몰라 직접 문항을 만들어서 설문을 수행했는데 이번 기회에 수동평가에 어떠한 것들이 있나 알수 있어서 유익했습니다. 단순히 저희가 했던 것처럼 설문 문항의 점수로 성능을 확인하는 것이 아니라, 수동 평가 간의 차이, 분산, 상관계수 등을 이용하여 결과를 분석할 수도 있다는 것을 깨달았습니다. 좋은 발표 감사합니다!
금일 세미나에서는 요약 task 에서 사용되는 평가방식을 정리하고, 관련 논문들에 대해서 정리했습니다. 평가지표에서 담지못하는 것을 예시로 보여주며, 새로운 평가지표를 낸 다는 것 자체로도 상당히 큰 의미를 가진다고 생각합니다. 사실 대부분의 연구, 논문들이 sota 모델을 0.1%의 성능차이로 이겨보려는 노력이 많습니다. 그러면 논문이 되는거고, 장점을 찾아내면 되는 그런 주의로 연구가 많이 진행된다고 생각합니다. 그래서 더욱이 이런 평가지표에 대해 의문을 제시하는 것은 시도가 적은것 같습니다. 근본적인 문제를 현실적으로 반영할 때 이런 평가지표가 수정된다고 생각합니다. 연구 뿐만아니라, 현업에서의 지식 및 고충을 이해하는 것이 또 좋은 방향이 연구가 될 것 같습니다.
금일 세미나에서는 요약과 관련하여 통일성 없이 사용되던 평가 방식들을 총 정리한 Re-evaluationing Summarization Evaluation:SummEval 논문에 대해 설명해 주셨습니다. 이 논문은 20여가지의 최신 요약 모델들에 대핸 모든 방식을 적용하여 평가를 수행하고 기존 평가 방식의 문제점을 지적하였습니다. 요약 분야에서는 평가에 대한 객관적인 지표가 부족한 상황이며 정량적인 지표도 요약 TASK를 정확하게 평가하지 못하고 있습니다. 따라서 해당 논문의 저자는 각 평가들이 어떠한 문제점을 갖고 있는지 전문가(교수) 정성적 평가를 함께 제시하며 실험하였습니다. 현재까지 나온 요약 논문들의 실험결과를 평가하기 위하여 각 저자로부터 모델과 실험결과를 받았다는 사실이 굉장히 인상적이었으며, 다양한 관점에서 평가를 진행하였다는 사실이 굉장히 놀라웠습니다. 다만 결론적으로 요약분야에서 활용할 수 있는 가장 객관적인 평가지표에 대해서 제시하지 못하였다는 사실이 안타깝습니다. 좋은 논문과 좋은 설명 감사합니다.
문장을 생성하는 연구에 대한 정량적인 지표는 여러 연구자들이 꾸준히 문제 의식을 가지고 있는 분야입니다. 이는 언어의 특성상 같은 의미를 여러가지 방식으로 표현할 수 있기 때문일 것입니다. Vision에서 대표되는 생성 모델은 GANs이며 많은 연구자들이 정량적인 metric을 만들고자 Inception score와 Fréchet Inception Distance 와 같은 아이디어를 제안하였습니다. 하지만 여전히 정량적 평가에 대한 한계가 명확한 상황이라 여전히 많은 연구들에서 정량적인 성능과 함께 독자들이 정성적인 판단을 할 수 있도록 생성된 이미지를 다수 보여주고 있습니다. 글을 생성하는 분야에서도 이처럼 metric에 대한 고민을 하고 답을 찾아가는 시간을 보내고 나면 자동평가와 수동평가를 함께 진행하는 날이 오지 않을까 라는 생각이 들었습니다.
해당 연구 분야가 흐름을 가지고 잘 정리되기 위해서는 정확한 평가 방법론이 중요하다고 생각됩니다. 제가 관심있어하는 adversarial defense 연구 분야도 언뜻 성능 평가가 명확할 것 같지만 gradient obfuscation이라는 문제로 인해 때때로 제안한 방법론의 성능이 과대 평가 되곤 합니다. 마찬가지로 문서요약 task도 task의 특성상 그 성능을 잘 측정하기 매우 어려운 것으로 보입니다. 이렇게 잘못된 평가 방법이 불러올 수 있는 폐단은 해당 연구 분야의 방향성이 중구난방이 된다는 것 같습니다. 좋지 못한 방법론을 좋게 평가하고 좋은 방법론을 나쁘게 평가함으로써 어떤 것이 진짜 좋은 방법론이고, 어떤 것이 좋지 않은 방법론이지 헷갈리게 하기 때문입니다. 본 세미나에서는 그 부분을 개선하기 위해 기존 평가 방법론의 문제점을 제기하고 새로운 평가 방법론을 제안하였습니다. 세미나를 통해 어떤 부분이 문제였고, 어떤 부분을 개선하였는지 잘 이해할 수 있었습니다. 앞으로 문서 요약이라는 연구 분야가 좀 더 확실한 방향성을 가지고 발전하기 위해서는 이러한 평가 방법론에 대한 고찰이 계속되어야 할 것 이라는 생각을 하였습니다. 좋은 발표 감사합니다.
해당 세미나 시간에는 SummEval: Re-evaluation Summarization Evaluation 을 주제로 다루어보았습니다. 논문 제목에서도 유추할 수 있듯이 해당 논문에서는 문서요약모델의 평가 방식에 대한 새로운 지표를 제시하고자 하였습니다. 기존 문서요약에서 널리 사용되는 자동평가 방식에는 대표적으로 ROUGE score와 METEOR가 널리 사용되어 왔습니다. 하지만 이러한 지표방식은 현재까지 계속되는 문서요약 연구들이 계속해서 사용하고는 있지만, 오래전에 제안된 이러한 지표를 계속해서 사용함으로 인해 문서요약의 발전을 저해하고 있다고 해당논문에서는 주장하였습니다. 따라서 해당 논문에서는 ROUGE를 포함하여 새로이 14개의 자동평가 기준과 4개의 수동 평가 기준을 제시하고 기존 연구들의 성능을 보여주었습니다. 대학원생이 연구를 수행하고 논문을 작성하는 과정에서 과거 선행연구의 metric들을 기준으로 실험을 수행하고 비교하는 과정은 루팅화된 과정이라고 생각됩니다. 하지만, 과거의 metric에 매몰되어 다양한 시각에서의 연구 방향을 억제할 수도 있다는 해당 논문에서의 주장은 많은 점을 시사해주고 있다고 생각합니다. 이러한 관점에서 이러한 새로운 metric을 제시하는 본 세미나의 주제는 많은 것을 배울수 있었습니다. 끝으로 취업준비기간임에도 불구하고 본 세미나를 준비한 발표자에게 감사의 인사 전합니다.
이번 세미나는 신경망 구조를 활용하는 문서 요약 모델에 대한 소개와 그 평가에 대한 세미나였습니다. 우선 예전에는 ROUGE score의 단점들이 존재함에도 불구하고 이 평가 기준이 계속 사용되었고, 요약 모델에 대한 통일된 평가 방식이 존재하지도 않았습니다. 이를 해결하는 총 14개의 평가 metric이 있는데, 이는 각각 수동 평가와 자동 평가로 나눌 수 있습니다. 우선 수동 평가의 경우, coherence, consistency, fluency, relevance가 기준이 되었고, 자동 평가는 rouge와 BERT를 기반으로한 평가 지표로 나눌 수 있습니다. 금일 세미나에서 제안된 방법론은 통일성이 없던 평가 방식들을 총 정리했다는 점에서 의미가 있고, 최신 요약 모델들에 대해 평가를 수행하였다는 점에서 가치가 높습니다. 정리가 잘 되어 이해하기 쉬운 세미나 감사합니다.
특정한 Task를 수행하기 위한 Model을 설계하였다면, 해당 Model이 어느 정도의 성능을 갖는지 평가하는 것은 필수적인 절차입니다. 이 과정에서 데이터의 특성에 따라 다양한 평가 지표들을 활용합니다. 하지만 자연어의 경우 동일한 의미를 다르게 표현할 수 있다는 특징으로 인해 현재까지도 Generation Task에 관한 정량적인 평가 지표들은 많은 한계를 가지고 있습니다. 또한 평가 지표가 갖는 한계는 분야의 발전에 영향을 미치기 때문에 좋은 지표를 설계하는 것은 좋은 모델을 설계하는 것과 동일하게 중요합니다.
오늘 세미나에서는 문서 요약 Task에 널리 사용되는 지표들의 한계에 대해서 알아보고, 정량적/정성적으로 요약문을 평가할 수 있는 다양한 지표를 다루었습니다. 개인적으로는 아직까지도 언어의 형태에 관한 지표가 대다수이고, 의미적인 요소를 측정하는 정량 지표의 개발은 더딘 편으로 판단됩니다. 언어에 내재하고 있는 의미를 반영하는 지표를 개발하는 것은 매우 난이도 있는 작업이겠으나, 언젠가 반드시 해결되어야 할 일이라고 믿고 있습니다. 오늘 소개해 주신 논문이 문서 요약 Task에 사용되는 평가 지표에 관해 다양한 관점에서 초석을 닦아 놓았다는 생각이 들며, 향후 추가적으로 어떠한 지표들이 개발될지 지켜보고 싶습니다. 좋은 발표 감사합니다.
문서 요약의 성능을 평가하는 대표적인 Metric은 ROUGE Score이나 단순히 생성된 요약문과 정답 간의 '겹치는 정도'로 평가하여, 요약문 평가에 있어 다양하고 창의성 있는 요약을 평가하기 어려웠습니다. 이런 문제로 인해 다른 Metric을 사용하거나 수동평가로 전환하는 경우가 있긴 하지만, 문제점을 안고도 ROUGE를 사용하는 경향이 큽니다. 본 세미나의 제목을 보고 가장 기대했던 부분은 현재 ROUGE Score의 문제를 완벽하게 해결하여 요약 평가를 제대로 달성할 수 있는 새로운 Metric의 소개였지만, 14개의 자동 요약 평가 기준, 4개의 수동 평가 기준을 토대로 23개의 모델에 적용하여 동일 선상에서 비교하는 것이었습니다. 즉, 지금까지 연구된 문서 요약 분야의 요약문과 같은 논문 및 모듈이며 이론을 정리하는 Survey Paper는 아니지만, 결과 요약에서 현황 및 흐름 파악에 많은 도움이 될 것 같습니다. 항상 필요한 내용을 전달해주시는 발표자님께 감사합니다.
이번 세미나는 요약 task에서 평가에 대한 문제점을 언급하며 지금까지 연구된 약 20여가지의 추출 및 생성 모델에 대해서 논의하는 “SummEval: Re-evaluating Summarization Evaluation”이라는 논문에 대해 소개해주셨습니다. 요약 모델에 대해서는 일반적으로 사용되는 ROUGE가 있지만 생성요약이나 유의어와 같은 경우 제대로된 평가가 어렵다는 단점이 있습니다. 더불어 사람에 의한 평가 또한 많은 비용이 들어가기 때문에 이러한 요소가 요약 모델의 발전에 있어서 방해가 되는 요소로 언급합니다. 본 논문에서 인상 깊었던 점은 20여가지의 모델에 대해 14개의 자동 평가 결과와 4개의 수동 평가 결과를 정리하고 각 문제점을 파악한 것이었습니다. 하지만 아쉬운 점은 여전히 이를 극복하기 위한 평가지표가 부재라는 점이었고 이러한 문제점을 해결하기 위해서는 아직까지 연구가 더 필요한 것으로 생각됩니다. 요약 모델에서 뿐만 아니라 평가 지표는 다양한 분야에서 완전하지 않다는 점이 한계점이라고 생각되는데 상황에 맞는 평가 지표를 적절하게 선택하고 부족한 부분에 대해서 개선점을 찾아 내는 것이 앞으로의 중요한 연구 방향이지 않을까 생각됩니다. 좋은 발표 감사합니다.
이번 학기에 비정형 프로젝트를 수행하면서 문서 요약을 어떻게 잘 평가할 수 있을 지에 대해 굉장히 많은 고민을 했었는데, 관련한 세미나를 진행해주셔서 반갑고 흥미로웠습니다. 문서요약은 대다수 Rouge 스코어를 이용해 정량적인 평가를 수행하지만 사실 높은 Rouge 스코어가 좋은 요약을 대표하는가 하면 그건 또 아니기 때문에, GAN과 같이 무엇보다 정성적인 평가가 중요하다고 생각합니다. 특히 생성요약이 pretrained-LM의 발전에 따라 활발히 연구가 되고 있는 현 시점에서는 더욱 그렇다고 생각하는데, 개인적으로 요약 task의 가장 큰 어려움은 '요약' 자체의 모호함에 있다고도 생각합니다. 평가하는 사람의 주관성은 물론 해당 task를 얼마나 접하고 실제로 요약을 해보았는 지에 따라서도 평가가 크게 갈릴 수 있는 분야라고 생각하기 때문에, 문서요약 도메인이 앞으로 발전하는 데에는 보다 통일성있는 관점에서의 평가가 중요하다고 생각합니다. 앞으로 문서 요약 task를 수행할 때 많이 참고하게 될 좋은 발표자료를 만들어주신 점 감사합니다.
이번 세미나에서는 문서요약에서 사용되는 평가지표에 대해서 발표해주셨습니다. Rouge score의 단점은 언어의 의미상 크게 틀리지 않지만 tokenize에 따라 예측결과의 성능이 매우 다를 수 있다는 것입니다. 대안으로 임베딩된 공간으로 해석될수 있는 문장벡터들의 유사도의 차이를 계산하는 방법이 있었으며, 대체적으로 문장 token들의 N-gram 일치성을 가지는 score들이 많은것 같습니다. 마지막으로 수동평가방식으로 평가자들의 정성적인 스코어를 논리적인 규칙에 의해서 산출하는 방법도 있었습니다. 좋은 발표 감사합니다.
문서요약 task의 평가 지표는 자동평가와 수동평가로 구성되고, 자동평가의 가장 대표적인 지표는 ROUGE score입니다. 그리고 이 지표는 이전부터 요약 성능을 잘 반영되지 못한다는 지적이 있었습니다. 수동평가는 사람이 직접 몇 가지 척도에 대해 평가를 진행하여 신뢰도가 상대적으로 높지만 현실적으로 많은 데이터에 대해 수행할 수 없다는 한계가 있습니다. 따라서 본 논문에서는 새로운 자동평가, 수동평가 기준을 제안합니다. 기존 좋은 성능을 보였던 논문의 저자들에게 직접 연락을 하여 추론 결과물을 얻어낸 것이 개인적으로는 놀라웠습니다. 전문가와 일반인의 평가가 상이할 수 있음을 인지하고 적절하게 비교한 부분도 인상깊었습니다. 모델만큼 중요한 것이 모델이 현실의 문제를 잘 해결할 수 있는지 판단하는 지표라 생각하는데, 이 논문을 기점으로 문서요약 모델의 평가 지표가 더 현실적으로 반영될 수 있으면 좋겠습니다. 좋은 발표 감사합니다.
금일 세미나에서 다룬 논문은 SummEval에 대한 것이며, 문서 요약문의 여러가지 평가 방식과 특징을 정리 비교한 내용이 공유되었습니다. 평가 방식에는 크게 자동평가와 수동평가가 있는데, 자동평가는 정답문장이 요약문과 얼마나 겹치는지 일정 기준/수식에 의해 계산되며, 수동평가는 사람이 직접 평가하는 것으로 coherence, consistency, fluency, relevance를 기준으로 일반 평가자와 전문가가 평가를 하게 됩니다. 이번 세미나를 통해 고전적인 자동평가 방식인 ROUGE score외에 다른 여러가지 metric에 대해서도 새롭게 알게 된 것이 많았습니다. 또한, 발표 내용 중, 정답 요약문도 수동평가에서 좋은 평가를 받지 못하였다는 실험 결과가 흥미로웠습니다. 그리고 자동평가는 결과는 그 수치 자체가 절대적으로 의미가 있지 않다는 점, 그리고 수동평가는 정답문의 존재 여부, 평가자의 주관성 개입 여부 등에 따라 평가 결과가 다르게 해석될 수 있다는 점을 짚어 주셔서 앞으로 연구 과제에서 평가 지표를 활용하게 된다면, 어떤 기준을 바탕으로 고려하여 지표를 선택해야하는 지 더 잘 고민할 수 있을 것 같습니다. 깔끔한 발표 감사합니다.
이번 세미나에서는 문서요약 task에서 사용되는 평가 기준에 대한 정리와 분석에 대한 주제로 진행 되었습니다. 문서 요약에서의 평가 기준은 크게 정답 문장과 모델이 도출한 요약문이 얼마나 겹치는지를 평가하는 자동 평가와 사람이 직접 평가하는 수동 평가가 있습니다. 이전까지의 문서 요약 task에서 사용되는 평가 기준의 문제점들은 오래되고 불완전한 평가 기준이 여전히 사용되고 있다는 것이고 통일된 평가 방식이 없었다는 점입니다. 이를 해결하기 위해서 발표해주신 논문에서 평가 방식 및 모델을 총 정리하고 모델의 결과물에 대해 평가 방식을 적용한 것을 비교하고 모델 요약문 및 평가 metric을 모듈화하였습니다. 총 14개의 평가 기준을 정리하였습니다. 평가방식을 비교하기 위해 23가지 모델의 결과를 전달 받았다는 것이 놀라웠으며, 한 편으로는 제대로된 결과를 전달 받았을까 라는 의심이 들기도 하였습니다. 또한 본 논문에서는 따라서 어떤 평가지표를 사용해야하는지는 언급하지 않았다는 것이 아쉬웠으나, 자동평가와 수동평가의 correlation이 높은 평가기준을 복합적으로 사용하면 괜찮지 않을까라고 발표자분께서 의견을 말씀해주셨습니다. 평가 기준이 많기 때문에 헷갈리기 쉬운데 발표자께서 관련된 평가기준에 대해 이야기를 할때 반복적으로 평가 기준이 무엇인지를 발표 슬라이드에 표시를 해줘서 이해가 쉬웠던 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 Neural Network 기반의 문서요약 모델의 평가 기준들에 대한 비교를 주제로 진행되었습니다. 본 논문에서는 총 14개의 evaluation metric에 대해 리뷰하였습니다. 요약성능 평가 시, 수동평가와 자동평가로 나누어 볼 수 있는데, 수동평가는 coherence, consistency, fluency, relevance 등의 기준에 대해 사람이 5점 scale로 평가를 한 것을 의미합니다. 반면 자동평가는 rouge 기반과 bert 기반 평가지표로 나누어 볼 수 있습니다. 발표를 통해 현재 문서요약의 평가 metric의 한계점을 알 수 있었습니다. 또한 특정 분야가 발전하기에 정량 metric의 중요성 또한 체감할 수 있었는데, 정답요약문과 모델이 생성한 요약문 간의 ROUGE score만을 기준으로 문서요약 성능을 발전시킨다면, 정답 요약문에 있는 단어를 많이 포함할수록 좋은 요약문이 되면서, coherence나 relevance와 같은 부분은 간과하게 될 수 있습니다. 좋은 발표 감사합니다.
이번 세미나는 문서 요약에 대한 정량 지표에 대한 내용으로 진행되었습니다. 문서 요약 프로젝트를 진행하면서 Rouge score를 사용해보니, 정답 문장과 생성 또는 추출 문장이 완벽하게 matching될 때 가장 좋은 요약문임을 가정하다보니, 동의어나 유사한 의미를 잡아내지 못해 정성 평가를 추가로 진행해야 했습니다. 본 논문에서는 자동, 수동 평가 지표를 제안했는데 전문가 평가와 일반 평가자의 평가의 차이를 반영한 것이 인상 깊었습니다. 요약 task에 있어서 의미적인 일치성을 잡아내는 정량 지표가 나온다면 사람이 생성하는 요약문처럼 더욱 자연스러운 요약문을 생성하는 모델을 학습하는데 큰 도움이 될 것이라 생각합니다. 좋은 발표 감사합니다.
이번 세미나는 SummEval: Re-evaluation Summarization Evaluation 연구에 대해 진행되었습니다. 문서요약 task는 추출요약을 너머 생성요약까지 많은 모델의 개선과 발전이 이뤄지고 있는 분야입니다. 하지만, 그럼에도 불구하고 모델 평가방식에는 의문점이 제기되어왔습니다. Rouge score의 경우, n-gram exact matching기반이기에 새로운 re-phrasing을 토대로하는 생성요약문의 평가에는 그 본질적인 평가를 하기에 한계점이 있었습니다. 더욱이, 수동평가로 본다면, 그 평가 기준이 모두 달라 객관적이고 통일된 평가기준이 다소 미흡합니다. 본 연구는 이러한 평가기준의 한계가 요약 모델의 발전을 저해한다고 보고, 이에 대한 논의를 위해 이를 실증하고자 했습니다. 총 28개의 평가기준, 23개의 최신 문서요약 모델을 본 연구에서 정리하였습니다. 그리고 모든 metric을 사용해 각 모델들을 모두 평가해, 현 상황의 문제점을 직접 보여주었습니다. 연구를 통해, 자동평가 시, 수치가 높다고 무조건 좋은 것도, 수동 평가로 무조건 좋은 요약문을 찾아낸다는 것도 확인할 수 있었습니다. 이번 발표를 통해, 문서요약 모델의 평가 결과 해석 시, 조금 더 신중히 접근해야 함을 확인할 수 있었습니다. 좋은 발표 감사합니다.
금일 세미나는 "SummEval: Re-evaluating Summarization Evaluation"라는 주제로 진행되었습니다. 본 발표에서는 신경망 기반의 문서 요약 모델에 대한 요약과 평가 기준에 대한 비교가 소개되었습니다. 개인적으로 extractive/abstractive summarization에 대한 고전적인 방법들을 사용한 적이 있어 요약 분야에도 관심이 있었는데, 딥러닝 기반의 summarization 모델의 큰 흐름을 한 번에 살펴본 수 있어서 유익한 세미나였습니다. 더불어 summarization의 경우 정량적인 평가 방법에 한계점이 많은데 오늘 다양한 평가 지표도 접할 수 있어 더 유익했습니다. 이러한 내용을 접하면서 이상치 탐지에서도 평가 지표의 한계점을 파악하고 발전된 평가 지표를 제안하는 것도 좋은 연구가 될 수 있겠다는 생각이 들었습니다. 좋은 발표 감사합니다.