번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10440
|
관리자 | 2020.03.12 | 0 | 10440 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9050
|
관리자 | 2020.03.12 | 0 | 9050 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10155
|
관리자 | 2020.03.12 | 0 | 10155 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (4)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 58
|
Doyoon Kim | 2025.05.01 | 0 | 58 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (15)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 146
|
Sunghun Lim | 2025.04.24 | 0 | 146 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (16)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 134
|
Suyeon Shin | 2025.04.21 | 0 | 134 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 173
|
Woongchan Nam | 2025.04.16 | 0 | 173 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 321
|
Kiyoon Jeong | 2025.04.16 | 0 | 321 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 354
|
Hyeongwon Kang | 2025.04.09 | 0 | 354 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 343
|
Jaehyuk Heo | 2025.04.02 | 0 | 343 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 338
|
Jaehee Kim | 2025.04.02 | 0 | 338 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 286
|
Jungho Lee | 2025.04.02 | 0 | 286 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 263
|
Hankyeol Kim | 2025.03.25 | 0 | 263 |
이번 세미나는 EmbedRank를 주제로 진행되었습니다. EmbedRank는 sentence, document 차원에서의 Embedding을 이용한 keyphrase 방법입니다. 이전에 WordAttactionRank에서 word embedding을 사용한 방법이 있었지만 sentence, document embedding을 사용하는 방법론을 본 논문에서 처음 제안하였습니다. 본 논문의 핵심 목표는 두가지 입니다. 먼저 informativeness로 당연하게도 문서와 keyphrase의 연관성이 있어야 하고, 두번째로는 diversity로 중복되지 않고 다양한 keyphrase가 도출되어 document를 고루 커버해야합니다. 제가 생각했을 때 핵심 contribution은 embedding을 사용했다는 것보다는 diversity를 챙기기 위하여 maximal marginal relevance를 사용한 점 같습니다. 발표자분께서 Rank 시리즈에 대해서 전반적인 설명을 해주셔서 본 논문을 이해하는데 수월하였고, 추가적으로 EmbedRank 이후의 방법론에 대해서도 간략하게 설명해주셔서 Rank 시리즈의 흐름을 알 수 있었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나를 통해 다양한 Rank 방법론, Key phrase Extraction이 무엇이고 어떤 연구가 이루어지고 있는지 알 수 있었습니다. EmbedRank에 대한 설명뿐만 아니라 이전에 연구가 되었던 다양한 Rank 방법론들에 대한 설명이 있어서 전반적인 흐름을 따라가는 것이 수월했습니다.
EmbedRank의 경우 Sentence, Document Embedding을 최초로 도입하여 기존 SOTA보다 높은 F-score를 달성했다는 contribution이 있습니다. 이러한 EmbedRank의 구체적인 과정을 살펴보면 1) candidate phrase를 추출, 2) Sent2Vec, Doc2Vec을 이용하여 candidate phrase, document를 Embed, 3) candidate phrase의 rank를 산출, 4) 최종 Top-N phrase를 산출합니다. 위 과정 중 step3)의 Ranking 과정에 diversity를 추가하기 위해 MMR(Maximal Marginal Relvvance)를 사용하는 부분이 흥미로웠습니다. Accuracy와 Diversity를 대변할 수 있는 term을 묶어 MMR 식으로 만들고 이를 최대화 하는 방식입니다. Trade-off 관계에 있는 내용을 수식 하나로 묶어 최적화하는 방법이 참 다양한 분야에 적용되고 있다는 것을 알았습니다. 해당 내용을 항상 유념하고 추후 연구에 적용해보고 싶습니다.
본 세미나를 통해 다양한 Rank 방법론들에 대해 흐름을 잡을 수 있었습니다. 세미나를 통해 처음 접한 내용임에도 불구하고 이해를 쉽게 할 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Simple Unsupervised Keyphrase Extraction using Sentence Embeddings (EmbedRank)논문을 다루어 주셨습니다. 초반에 Rank의 전반적인 흐름과 개념도 짚고 넘어가셔 이해하는데 도움이 되었습니다. EmbedRank 이전에는 단일 단어의 rank를 구하고 합쳤더라면, EmbedRank에서는 처음부터 phrase가 최소 단위가 되며, phrase에 sentence embedding을 처음으로 적용하게 됩니다. 이렇게 EmbedRank를 통해 phrase embedding의 활용 가능성을 확인하였다는 점에서 의의가 있습니다. 위 세미나를 통해 MMR(Maximal Marginal Relevance)을 이용해 람다값을 조절하며 검색값과의 연관성과 다양성을 반영하여 결과값을 추출할 수 있다는 것을 알게 되었습니다. 결과부분에서 길이가 상이한 데이터셋으로 실험을 했을 때, 항상 EmbedRank를 이용했을 때가 가장 성능이 좋지는 않았다라는 결과가 흥미로웠습니다. 발표에서 사용된 데이터셋의 특징을 잠깐 언급하시기도 했는데, 개인적으로 추후에 형식이 정해진 text(ex 논문)가 아닌 형식이 정해지지 않은 text에서는 어떤 결과가 나타날지 궁금증이 생겼습니다. 나중에 기회가 된다면 이 부분에 대해 좀더 찾아보고 싶습니다. 전반적으로 예시와 함께 상세히 설명해주셔서 흐름을 잘 따라갈 수 있었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 “Unsupervised Key-phrase Extraction using Sentence Embeddings(EmbedRank)”라는 논문을 다루어 주셨습니다. EmbedRank는 최초로 sentence, document 차원에서의 Embedding을 이용한 사용한 방법으로, semantic relatedness를 이전보다 정확히 구할 수 있다는 장점이 있습니다. 본 논문의 핵심 목표는 informativeness(정보)와 diversity(다양성)로 각각 다음과 같은 의미를 갖습니다. 먼저 informativeness의 경우는, 문서와 key-phrase가 연관되어 있어야 한다는 점을 강조합니다. 즉, 문서와 key-phrase의 임베딩 벡터의 유사도를 통해 이를 도출합니다. 그 다음으로 diversity의 경우, 다양한 key-phrase가 추출하는 것을 목적으로 합니다. 다양한 key-phrase가 추출되어야 document를 고루 커버할 수 있게 되며 이는 key-phrase 간의 임베딩 벡터의 거리를 통해 구할 수 있습니다. 프로세스는 다음과 같이 ①Candidate Phase 추출 ② Sent2Vec(또는 Doc2Vec)을 이용한 Embedding ③ MMR(Maximal Marginal Relevance)를 통한 다양성 확보 ④ Top N개의 phrase 선정 순으로 4가지 step을 통해 EmbedRank를 도출을 합니다. EmbedRank 관련 이전 논문들과 후속 논문들을 소개해 주셔서 연구의 flow를 이해하기 좋은 발표였습니다. 첫 발표 수고하셨습니다.
금일 세미나는 EmbedRank: Simple Unsupervised Keyphrase Extraction using Sentence Embeddings 방법론에 대한 설명이 있었습니다. 본 논문에서는 sentence, document embedding을 처음으로 사용하여 의미 관계를 보다 세밀하게 파악하고자 했습니다. 크게 두가지의 지표로 informativeness와 diversity를 들고 있는데, 문서와 keyphrase가 서로 연관되어 있고 다양한 keyphrase가 추출될 수 있도록 하였습니다. 특히, 다양성을 가지면서도 연관성 있는 keyphrase 추출을 위해 MMR 방법론을 활용하였다는 점이 주요 특징인 것 같습니다. 비교적 옛날 논문이지만, 그 당시에 단순히 문장이나 독립적인 단어 단위로만의 embedding 학습이 아니라 phrase 단위로 보다 좋은 embedding 값을 학습할 수 있도록 고민한 흔적이 잘 보인 논문인 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에선 비지도 학습 기반의 keyphrase extraction이라는 태스크와 Embedrank를 소개해주셨습니다. 처음 접하는 태스크와 접근법이었지만, 이전의 다양한 논문과 관점들을 함께 설명해주셔서 비교적 수월하게 이해할 수 있었던 것 같습니다.
Key Phrase 혹은 Key word란 추출 요약의 기저를 이루는 태스크로서 문서 내 중심이 되는 단어 및 구절을 선택하는 태스크입니다. EmbedRank는 명사 및 형용사만 남기고 이를 key phrase의 후보로 삼습니다. 그리고 이를 Sent2Vec 혹은 Doc2Vec을 통해 구한 문서 전체의 임베딩과 유사도를 계산하여 문서 벡터와 가까운 단어들을 key phrase로 선정하게 됩니다.
이때 단순히 거리 기준으로 상위 k개의 phrase를 선택할 경우 각 phrase의 의미가 유사하기 때문에, MMR을 이용하여 key phrase의 다양성을 높이고 있습니다. 임베딩 벡터를 이용하는 비교적 단순한 방법으로 key phrase라는 모호한 개념을 구체화할 수 있다는 점에서 흥미로웠습니다. 또한 그 과정에서 MMR의 식이 직관적인 방법임에도 정성적으로 충분히 좋은 성능을 보이는 모습이 인상 깊었습니다. 학습에 사용된 데이터셋이 상대적으로 작고, 최근에 사용되는 pretrained model을 사용하면 어떤 결과가 나올지 개인적인 궁금증이 생겼습니다.
좋은 발표 감사합니다.
Unsupervised keyphrase extraction으로 첫 세미나를 진행해주셨습니다. Information extraction의 다른 형태로 보이면서도 하나의 keyphrase에 문법, 문서연관성, 주제함축 등의 정보가 많이 담겨야 하기 때문에 이를 모델링할 때 나름의 어려움이 있을 것 같습니다. Contextual representation 이전의 방법론부터 차례로 짚어 주어 흐름 파악이 용이하였습니다. 본 논문인 embedrank는 문서요약과도 어느정도 겹치는 부분이 있는데, QA에서 passage를 찾은 후 정답을 추출하는 것처럼 extractive summarization 진행 후 keyphrase를 추출하는 식의 pipeline을 구성하는 방법은 어떨지 궁금했습니다. 다른 여러 자연어 task로도 잘 확장될 수 있을 것 같아 첫 연구주제로서 괜찮은 선택인 것 같습니다. 발표 잘 들었습니다.
고전 방법론인 embedrank에 대한 세미나를 진행하였습니다. 발표자가 언급한 것처럼 고전적인 방법론들을 제대로 짚고 넘어가는 것은 매우 중요하다고 생각합니다. 본 논문에서는 doc2vec에 본인들의 아이디어를 더한 구조를 통해 성능을 도출하였는데, 이후에도 본 논문에서 제안한 방법론이 아니라 doc2vec이 꾸준히 선택받은 이유에 대해서는 한번쯤 고민할 필요가 있지 않나 생각합니다. 세미나에서 embedrank 뿐만 아니라 연구의 흐름을 짚어 주셔서 이해하기 편했습니다.
이번 세미나에선 EmbedRank 를 처음 제안했던 Simple Unsupervised Keyphrase Extraction using Sentence Embeddings 라는 논문에 대해 소개되었습니다. keyphrase extraction 은 오래된 주제이면서 그 활용성이 크기에 최근까지도 새로운 연구들이 꾸준히 등장하고 있는 연구 분야인 것 같습니다. 비교적 예전 논문임에도 word level 에서의 단순한 extraction 방식이 아니라 phrase 단위로 좀 더 의미 있는 keyphrase extraction 방식을 제안했다는 점과, 이 과정에서 MMR(Maximal Marginal Relevance) 을 사용하여 diversity 또한 높일 수 있었다는 점에서 의미가 있는 논문인 것 같습니다. TextRank 나 TopicRank 를 포함한 이전의 관련 연구들도 정리해주시고 최근 연구들까지 간략히 소개해주셔서 전반적인 연구 흐름을 생각하며 들을 수 있었던 세미나였던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나는 크게 Keyword/Keyphrase Extraction을 주제로 진행되었고 메인 논문으로 EmbedRank를 제안한 Unsupervised Keyphrase Extraction using
Sentence Embeddings를 소개해주셨습니다. 발표자분과 같은 프로젝틀르 진행하면서 키워드 추출의 중요성을 체감하고 있기 때문에 더욱 관심이 갔던 주제입니다. 키워드 추출은 말 그대로 문서 내 중요한 키워드를 추출하는 task입니다. 미리 정답 keyword가 존재하는지 아닌지에 따라 supervised, unsupervised로 나뉘고, 현실 세계에 적용하기 위해서는 unsupervised 기반의 방법론 연구가 더욱 유용합니다. keyword extraction은 한 단어의 키워드만 추출한다면, keyphrase extraction은 중요한 단어구를 추출합니다. 소개해주신 EmbedRank는 2018년에 발표된 방법론으로 비교적 오래 지났지만 Embedding-based 계열 방법론의 시초로서 중요한 의의를 가집니다. TextRank를 시작으로 SingleRank, TopicRank 등 EmbedRank까지의 발전 흐름을 먼저 짚어주셔서 이해하기에 수월했고, phrase를 임베딩하는 방법론, 그리고 임베딩된 phrase의 representation을 활용하여 어떻게 하면 다양성을 살린 keyphrase를 추출할 수 있을지에 집중하며 발표를 들을 수 있었습니다. 첫 세미나라 준비하는데 고생 많으셨을텐데 수고하셨고 좋은 발표 진행해주셔서 감사합니다.
금일 세미나는 "Simple Unsupervised Keyphrase Extraction using Sentence Embeddings (EmbedRank)"라는 주제로 진행되었습니다. 본 발표에서는 임베딩을 기반으로 키워드를 추출하는 최초의 방법론인 EmbedRank가 소개되었습니다. 해당 모델은 sentence 및 document embedding을 사용하여 semantic relatedness를 정확히 구함으로써 키워드 추출의 성능을 향상시켰습니다. 해당 방법론에서는 r검색분야의 maximal marginal relevance를 활용하여 추출된 keyphrase의 다양성을 확보하였는데 개인적으로는 이 부분이 흥미로웠습니다. 연구실 세미나에서 키워드 추출이라는 주제는 처음 다루어진 것으로 아는데 해당 분야에 대한 전반적인 흐름과 대표적인 고전 방법론에 대해 들을 수 있어 좋았습니다. 좋은 발표 감사합니다.
금일 세미나는 “Simple Unsupervised Keyphrase Extraction using Sentence Embeddings”연구에 대해 진행되었습니다. 연구 제목에도 나와있듯이, keyphrase extraction을 unsupervised 방법론으로 풀어냈습니다. 본 연구는 발표자분께서도 강조해주셨듯, embedding을 기반으로 한 keyphrase extraction 연구라는 점에서 기여점을 갖는 것으로 보입니다. 그 중에서도 embedding된 정보들 간 diversity를 확보하는 점이 인상적이었습니다. diversity는 MMR(Maximal Margin Relevance)을 활용합니다. MMR을 통해 accuracy와 diversity를 직접 조절할 수 있다는 점이 흥미로웠습니다. 개인적으로 keyphrase extraction과제에 대해 지난 business analytics수업 이후에 업데이트를 하지 못했었습니다. 본 발표를 통해 해당 과제에 대해 정리하고, 이해를 높일 수 있었습니다. 더불어서 embedrank이후 최근의 연구 동향에 대해서도 짧게나마 정리를 해주셔서 도움이 많이 되었습니다. 쉽지 않은 많은 내용 잘 정리해주신 발표자분께 감사드립니다.
이번 세미나에서는 "Simple Unsupervised Keyphrase Extraction using Sentence Embeddings (EmbedRank)" 논문을 중심으로 비지도방식 Keyphrase Extraction의 대표적인 방법론들을 설명해 주셨습니다. 익숙한 Keyword Extraction이라는 용어가 한 단어만을 추출하는 것을 의미한다면 Keyphrase Extraction는 단어 및 구절을 추출하는 task를 의미합니다. 또한 training dataset, domain에 의존적이지 않도록 하기위해 특히 비지도 방식의 Keyphrase Extraction이 중심이 되어 발전해오고 있습니다. 이러한 배경에서 발표자 분께서는 전통적인 TextRank, SingleRank, TopicRank, WordAttractionRank 방법론들를 거쳐 논문의 주제인 EmbedRank 방법론까지 설명해 주셨습니다. EmbedRank 방법론은 전통적인 방법론들처럼 각 단일 단어의 rank를 구한 후 합하여 phrase의 rank를 구하지 않고, 처음부터 phrase를 최소단위로 하여 Phrase(sentence, document) Embedding을 수행하는 것을 처음 제안했습니다. 이를 통해 Sematic Relatedness를 더욱 정확히 구할 수 있게 되어 기존의 SOTA를 뛰어넘는 성능을 보입니다. 특히 람다를 조절하는 것으로 검색 값과의 연관성을 강조할지 다양성을 강조할지를 결정하는 Maximal Marginal Relevance(MMR)이 trade-off 관계인 둘을 하나의 식으로 표현한 것이 인상 깊었습니다. 발표에서는 추가로 EmbedRank의 로부터 Phrase Embedding의 활용 가능성이 확인되어 Embedding-based keyphrase extraction 계열이 생성되었으며, 이후 Pre-trained Language Model, Attention 등이 추가로 활용되고 있다고 설명합니다. 본 발표를 통해 비지도방식 Keyphrase Extraction의 발전 과정에 대한 이해를 할 수 있었고 최근 발전 방향까지 살펴볼 수 있었습니다. 제가 잘 모르는 분야임에도 이해하기 쉽게 발표해 주셔서 많이 공부가 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 Keyword Extraction 분야에서 EmbedRank란 방법론을 제안한 “Simple Unsupervised Keyphrase Extraction using Sentence Embeddings” 논문에 대해서 발표가 진행되었습니다. Key word/Keyphrase Extraction은 문서 내의 주요한 단어나 구절을 추출해내는 task로, 문단, 문장 자체만 있어도 가능한 Graph-based, Clustering-based 등의 unsupervised 기반의 방법론 위주로 연구되어 왔습니다. 이후, 발표의 주 내용인 EmbedRank 발표 부분 중 EmbedRank++ 방법론에서 결과의 diversity와 accuracy를 직접 하이퍼 파라미터를 통해 조절할 수 있는 Maximal Marginal Relevance를 인상 깊게 들었는데, 검색해보니 발표에서 말씀하신 것처럼 문서 요약에서 자주 나오는 개념인 것 같아 더 찾아보고 싶다는 생각이 들었습니다. EmbedRank 발표를 들으면서 pre-trained 모델을 활용한 방법은 없을까 궁금했는데 EmbedRank 이후 AttentionRANK, BWRank 등 pre-trained 모델을 활용하는 연구 흐름도 소개해주셔서 도움이 많이 됐습니다. 해당 주제를 이전에 접해본 적이 없지만 task 소개부터 관련 데이터셋, 연구 흐름을 잘 정리해주셔서 이해가 수월했던 것 같습니다. 좋은 발표 감사합니다.
본 세미나에서는 문서 내에서 핵심 문장을 추출해내는 Keyphrase extraction 기법 중 하나인 EmbedRank에 대해서 소개해주셨습니다. 이는 Sentence, Document Embedding을 최초로 사용한 기법이며, 의미적 연관성을 이전 기법들보다 더 정확하게 반영할 수 있었습니다. 그리고 핵심 문장 추출 시 문서와 문장간의 연관성을 보장하는 동시에 다양한 문장이 추출되는 것을 갖추기 위해 노력하였으며 이는 Maximal Marginal Relevance를 통해 진행되었습니다. 또한 본 기법은 문서 내의 문장을 찾는 시도이지만 이전의 Doc2Vec이나 Sent2Vec과 같이 문서나 단어의 임베딩을 구하는 기법을 전체 모델 내에서 활용하여, 만일 이를 대체할 수 있는 다른 모델이 있다면 더 좋은 성능을 낼 수 있는 모델로 바꿀 수 있는 장점도 있습니다. TextRank나 PageRank와 같이 Rank가 붙는다면 Graph와 큰 연관성이 있을텐데 GNN를 곁들일 수 있는 방법을 고안해 내신다면 좋은 연구 진행하실 수 있을 것 같습니다. 감사합니다.
이번 세미나에선 “Simple Unsupervised Keyphrase Extraction using Sentence Embeddings”라는 논문에 대하여 소개해주셨습니다. 해당 논문은 embedrank라는, keyphrase extraction을 위한 방법론을 제안하고 있습니다. 우선 keyphrase extraction이 익숙하지는 않은 개념이었는데, 해당 테스크의 경우 한 단어가 아니라 구절을 추출하는, 좀 더 넓은 범위의 keyword extraction이라고 볼 수 있을 것 같습니다. 일반적으로는 unsupervised 방식의 접근이 다수 연구되었는데, embedrank의 경우 우선 phrase로 선정 가능한 후보를 명사/형용사로 제한하여 이들을 활용하며, Sent2Vec이나 Doc2Vec 같은 방법론을 통해 문서 전체의 임베딩을 구하여 유사도를 계산하게 됩니다. 또한 이 과정에서 MMR(Maximal Marginal Relevance)을 활용해 다양성 또한 확보하였다는 측면이 흥미로웠습니다. 좋은 발표 감사합니다.
본 세미나는 EmbedRank를 주제로 진행되었습니다. 비교적 오래된 논문이라고 말씀해주셨지만 4년 사이에 embedding으로 downstream task를 수행했던것과 달리 최근 연구들이 발전 속도가 체감되었습니다. ‘unsupervised’ setting으로 ‘keyphrase’를 추출하는것은 매우 어렵지만 현업에서 가장 필요한 방법중 하나라 생각합니다. [CLS] 토큰과 문장의 각 단어의 유사도를 계산해 비교적 간단한 방법으로 키워드를 추출하는 keybert 또한 embedrank와 비슷한 연구라 생각했습니다. EmbedRank 에서 좋은 keyphrase를 뽑기위해 diversity를 고려한 점이 인상깊었습니다.
프로젝트를 수행하다보면 SoTA 방법론 보다는 직관적이고 단순한 모델에서 좋은 성능을 달성할때가 많습니다. 발표자분의 궁금증이 좋은 연구 아이디어로 발전되길 기대하겠습니다.
금일 세미나는 unsupervised keyphrase extraction에 활용되는 EmbedRank에 대한 소개로 진행되었습니다. EmbedRank는 TextRank의 변형된 모델로서, 단어 간 co-occurrence를 기준으로 edge의 weight를 정의했던 TextRank 방식과는 다르게, EmbedRank는 문장/문서에 대한 임베딩을 사용하여 의미적 유사성에 대해 더 정확하게 계산할 수 있다는 장점을 갖습니다. EmbedRank는 추출하는 phrase가 문서와 연관성이 높으며, 전체적인 문서 내용을 포함하기 위한 다양한 종류의 phrase가 추출되어야 한다는 점에서 문장/문서에 대한 임베딩 도입을 제안합니다. 구체적인 모델의 작동원리는 다음과 같습니다. 먼저 명사인 후보 phrase들을 추출하고, Sent2Vec 혹은 Doc2Vec을 사용하여 각 phrase와 문서들을 임베딩합니다. 이후 candid phrase에 순위를 매겨 top-k개의 phrase를 선택하는 방식으로 진행됩니다. 고전적인 TextRank를 시작으로 이후에 발전되어온 모델들에 대한 소개와 EmbedRank, 그리고 마지막에 KeyBERT까지 keyphrase extraction과 관련된 전체적인 흐름을 잘 소개해주셔서 좋았습니다. 유익한 발표 감사합니다.
금일세미나는 발표자 분께서 관심있는 주제로 선정한 extraction 분야에서 대표되는 text rank 과 유사한 embed rank 입니다. 세미나를 준비하면서 text rank 뿐만아니라 이전 연구들을 잘 정리해 주셨는거 같고, 개선점이 어떻게되는지 잘 정리해주셨습니다. extraction 분야에서 informative, Diversity 두가지가 고려되어야 함을 들면서 embedRank 를 설명합니다. 특히 Diversity 라는 부분은 개인적으로 세미나를 들으면서도 집중해서 들었는데, Retrieval 관점에서 완전히 같은것 뿐만아니라 다양한 retrieval 을 학습하는 것이 extraction 과 어떤 관련성이 있을까 였습니다. 이를 적용하기 위해 maximal marginal relevance loss 를 사용한 것 같고 embeding space 에서 이루어지는 방법론이기에 가능하지않나 생각합니다. 이후 최신방법론들까지 정리해주셔셔 간만에 text extraction 에 대한 세미나로 좋았습니다. 감사합니다.
금일 세미나는 "Simple Unsupervised Keyphrase Extraction using Sentence Embeddings" 논문에 대해 소개해 주셨습니다. 논문 설명에 앞서 관련 연구에서 TextRank부터 EmbedRank까지 수식과 함께 자세한 설명을 통해 순서대로 작성해주셔서 이해하기 수월했습니다. EmbedRank는 기존 방법과 다르게 informativeness와 diversity를 모두 고려하여 계산하는 방법입니다. 따라서 sentence 또는 document 단위를 서로의 semantic relatedness를 고려하여 embedding 할 수 있다는 장점이 있습니다. 이번 발표를 통해서 자연어처리에서 사용되는 embedding 방법을 전체적으로 들을 수 있어서 인상적이었고 EmbedRank 이후 후속연구들에 대해 리스트업 해주셔서 추후 필요한 내용에 대해 알아갈 수 있는 로드맵이 될 수 있다고 생각했습니다. 좋은 발표 감사합니다.