[Paper Review] BERT, ELMo, & GPT-2 : How Contextual are Contextualized Word Representations?

Paper Review
작성자
Yukyung Lee
작성일
2020-08-20 04:11
조회
4631
1. Topic

- Contextualized representation을 만들어내는 대표적인 모델(ELMo, BERT, GPT2)이 실제로 얼마나 문맥적으로 text를 표현하고있는지 3가지 정량적인 measure를 이용하여 분석함.

2. Overview

Word2vec, Glove와같은  static representation이 등장한 이후 성능이 좋은 언어모델이 공개되면서 'Contextualized representation'의 중요성이 대두되었다. 하지만 대부분의 연구에서 문맥화된 표현이 어떻게 문맥화 되어있는건지, 얼마만큼의 성능을 가지는지 이해가 부족하며 논문의 저자는 'How Contextual are Contextualized Word Representations?' 이라는 질문의 대답을 찾기위해 다양한 실험을 진행하였다. 특히 Contextualized representation을 만들어내는 대표적인 모델인 EMLo, BERT, GPT2의 representation을 평가하기위해 세가지 정량적 measure를 제안하고 (Self Similarity, Intra-sentence similarity, MEV)  각 모델이 생성해내는 representation을 레이어마다 비교하여 분석을 진행한다.

본 세미나는 논문 리뷰를 진행한 후 발표자가 진행하고있는 domain specific한 데이터에 논문에서 제안한 measure를 적용하여 실험을 진행하였다.  이 데이터는 Text가 아닌 sequence를 가진 데이터이며,  진행중인 연구의 가능성을 검증하고자 했다.  비교 실험 대상으로는 Pre-trained BERT모델, Finetuned BERT모델(domain specific한 데이터로 mlm training 진행함), Pre-trained GPT2 모델을 활용하여  contextualized representation을 비교하였다.

3. 발표자료 및 발표영상

[1] 발표자료 (하단 첨부파일)

[2] 발표영상 ">[Link]

4. 참고 문헌

논문

How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [Link]

논문의 저자가 작성한 블로그 글

BERT, ELMo, & GPT-2 : How Contextual are Contextualized Word Representations ? [Link]
전체 10

  • 2020-10-16 18:48

    이번 세미나에서는 다양한 Language Model의 결과로 나오는 Contextualized Word Representation에 대한 기하학적인 비교에 대해 소개해 주셨습니다. 우선적으로 기존 분산 표상 방식의 Representation들을 (Word2vec, Glove, …) Static Representation으로 정의하고, Language Model을 이용한 Representation을 Contextual Representation으로 정의합니다. Contextual Representation들은 일반적으로 같은 단어라도 문맥에 따라 다른 의미를 지니게 되는데, 이러한 Representation들이 얼마나 문맥적인 정보를 잘 표현하고 있는지를 측정하기 위해 다양한 지표를 정의하고 서로 비교합니다.
    우선적으로 모델의 각 Layer에서 동일한 단어가 모든 Context에서 가지는 평균 Cosine Similarity를 SelfSim으로 정의하고, 동일한 문장 (같은 문맥)에서 등장하는 단어들 사이의 평균 Cosine Similarity를 IntraSim으로 정의합니다. 여기서 SelfSim은 낮을수록, IntraSim은 높을수록 각 Token (또는 Model)은 문맥을 구체적으로 파악합니다. 이후 각 Language Model (ELMo, BERT, GPT2)의 SelfSim과 IntraSim을 각각 비교하여 각 Language Model의 특성을 파악합니다.
    개인적으로 Language Model Representation (Contextualized Word Representation)에 큰 관심이 있습니다. 각 Language Model이 특정 Task에 우수한 근본적인 이유에 대해서 학습할 수 있었던 유익한 시간이었으며, 흥미로운 발표 진행해 주신 발표자께 감사의 말씀을 올립니다.


  • 2020-08-21 15:07

    이유경 석사과정의 세미나 발표를 들었습니다. 오늘 발표해주신 논문은 How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings 논문이었습니다. 해당 논문은 EMNLP 2019에 Accept 된 논문으로 Contextualized Word Representation 에 대한 고찰이 담긴 논문이었습니다. 먼저 과거 word2vec, GloVe 등과 같은 Static Representation 에서 더 나아가 최근에는 Contextualized Representation 을 많이 사용하고 있는데 Downstream Task 성능과는 별개로 해당 논문에서는 Contextuality 를 측정할 수 있는 3가지 Measure 를 제시하고 있었습니다. 해당 Measure 를 종합해보면 self-similarity 가 낮을 때, intra-sentence similarity 가 높을 때, maximum explainable variance 가 낮을 때 Contextuality 가 좋다고 판단할 수 있다고 합니다. Representation 의 품질 자체를 비교하며 고민해볼 수 있다는 아이디어가 과거 Static Representation 에서도 논문으로 나온 적이 있었는데, 이를 Contextualized Representation 에서도 실험해 본 논문의 결과를 볼 수 있어서 유익한 시간이었습니다. 발표 잘 들었습니다. 감사합니다.


  • 2020-08-21 17:13

    이번 세미나에서는 다양한 모델들의 word vector들의 차이를 탐색할 수 있었습니다. 비교 모델들은 BERT, ELMO, GPT2들의 word vector들을 비교하였습니다. 비교 측정치로 self-similarity: 단어들 벡터사이의 유사도를 구하는데 BERT의 깊은 layer층에는 유사도가 낮다는 점에서 다양한 단어벡터들이 형성 된것을 알 수 있었습니다. intra-similarity는 한문장에 등장하는 단어들의 평균 벡터와 그 단어들 사이의 유사도를 구 하는 것 이었습니다. 이 값도 깊은 layer에서 높은 값으로 가지게 되었습니다. 마지막으로 Maximum explainable variance은 해당 문장x단어 matrix의 eigen value를 산출하는 방식이었고 ELMO의 경우가 static한 관점으로 가장 높게 나왔습니다. 한가지 아쉬운 점은 ELMO 또한 동일한 layer사이즈로 깊게 학습되어야 동등한 비교지 않을 까 생각해봅니다. 그리고 개인연구분야는 다른 IT회사들에서 관심있는 분야로 알고 있으며, 나중에 좋은 이력으로 남을 것 같습니다 🙂


  • 2020-08-21 17:48

    이번 세미나는 input 토큰들 사이의 관계까지 반영해 representation을 진행하는 contextual representation에 관한 논문을 리뷰하는 세미나였습니다. 같은 단어지만 문맥에 따라 다른 의미로 쓰이면 (예 : 동음이의어) 각 문맥에 맞게 representation을 해주어야하는데 , 얼마나 contextual한지는 세가지 지표로 나타낼 수 있습니다. Self similarity가 낮을 수록, Intra similarity가 높을 수록, maximum explainable variance가 낮을 수록 contextual 하다고 표현할 수 있습니다. 이 세가지 지표들에 대해 ELMo, BERT, GPT2의 값들을 모두 표현해봤을 때, BERT가 classification에 좋은 모델이라는 등의 의미도 도출할 수 있습니다. 그리고 개인 연구로 텍스트 데이터가 아닌 로그 데이터를 input으로 넣어 새로운 contribution을 도출할 수 있다는 점에서 신선했고, 로그 데이터의 전처리 과정, 로그 데이터가 contextual 하다면 그 문맥적 의미가 어떤 것인지 등 로그 데이터 만의 주의점들에 대해 잘 연구하면 좋은 contribution이 나올 것 같습니다. 텍스트 데이터에 국한된 것이 아닌, 다른 종류의 데이터를 적용하는 아이디어를 다시 생각해볼 수 있었습니다. 감사합니다.


  • 2020-08-24 10:03

    본 논문에서는 ELMO를 기점으로 많은 연구가 이루어지고 있는 contextualized word representation에 대해 분석했습니다. word2vec으로 대표되는 단어 임베딩(static) 방법들은 동음의의어와 같은 경우에 대처하지 못하지만 contextualized한 임베딩(dynamic) 방법들은 문맥에 따라 임베딩이 달라지므로 이러한 상황에 유연하게 대처할 수 있습니다. 그러나 현재까지 이러한 contextualized embedding방법들이 얼마나 'contextual'한지를 명확히 밝혀낸 연구 결과는 없었습니다. 즉, 동일한 단어가 여러 문맥에서 크게 두 가지 뜻으로 사용되는 경우 contextualized word representation 모델들은 문맥에 맞게 두 가지 임베딩을 적절히 사용하는 것인지, 혹은 모든 문맥에 대하여 다른 임베딩을 사용하는 것인지(highly contextualized)를 저자들은 밝혀내고자 하였습니다. 본 논문은 크게 세 가지 measure를 제안합니다. 첫 번째로 특정 단어가 등장하는 모든 문맥에서 해당 단어의 embedding들의 cosine 유사도가 얼마나 높은지를 측정하는 self-similarity, 두 번째로 문맥 내에 있는 단어들이 얼마나 유사한가를 측정하는 intra-sentence similarity, 그리고 세 번째로 특정 단어의 first principal component가 해당 단어의 representation들을 얼마나 설명할 수 있는지를 분산의 비율로 표현한 Maximum Explainable Variance입니다. 이 세 가지 방법을 통해 논문은 대표적인 contextualized representation 방법인 ELMO, BERT, GPT2의 contextualize 정도를 분석했습니다. 처음 제시한 아이디어(how contextualized are models?)를 바탕으로 이를 수치적으로 측정할 수 있는 방법 세 가지를 고안하고 실험으로써 이를 증명한 배울 점이 많은 논문이었습니다.


  • 2020-08-24 10:05

    이번 세미나는 이유경 석사과정의 contextual representation에 관련된 발표였습니다. NLP에서 주로 사용하는 embedding 기법은 크게 static한 방법과 contextual 한 방법 두 가지로 나눌 수 있습니다. static한 방법은 Word2Vec이나 GloVe가 있으며, Contextual 한 방법은 ELMo, BERT, GPT가 있습니다.

    이번에 발표한 논문은 ELMo, BERT, GPT2가 이러한 contextual representation을 나타내는지에 대해 실험일 진행한 논문입니다. 해당 논문은 self-similarity, Intra similarity, maximum explainable variance 세가지 지표를 통해서 각 모델의 contextual함을 비교합니다.

    이번 발표에서 이유경 발표자의 개인연구와 논문을 접목하여 설명을 해주어 매우 신선했습니다. 꾸준히 개인연구를 진행하고 있는 모습에서 다시한번 저에 대해 반성하게 되었습니다. 발표 잘 들었습니다.


  • 2020-08-24 14:22

    금일 발표는 "BERT, ELMo, & GPT-2 : How Contextual are Contextualized Word Representations?"라는 주제로 진행되었습니다. 본 논문은 contextualized representation에 대한 3가지 정량적 지표를 제안하고 이를 기반으로 ELMo, BERT, GPT2가 얼마나 문맥적으로 문장을 표현하는지를 확인하였습니다. 먼저 발표자가 개인연구 진행 중 생긴 의문점을 해결하기 위하여 본 논문을 선택한 점이 좋았고, 이러한 과정을 통해 본 발표자가 의문점이 생겼을 때 논리적인 근거들을 통해 이를 해결하려고 한다는 생각이 들어 이러한 점은 훌륭한 배울점이라고 생각했습니다. 본 발표에서 소개된 해당 논문은 저자가 NLP의 대표적인 모델에 의문을 던지고 이를 해소해나가는 flow로 작성되었는데, 이를 들으며 지난 이정훈 박사과정의 "To tune or not to tune" 발표가 생각났습니다. 연구를 진행하다보면 개인적으로 어떠한 문제를 제기하기보다는 이미 정의되어 있는 문제를 보다 잘 해결하자는 목표를 가지고 연구에 임하는 적이 많았는데, 본 발표를 들으며 새로운 문제를 제기하는 것 또한 SOTA를 달성하는 것만큼 가치있는 연구라는 것을 다시금 깨닫게 되었습니다. 더불어 본 논문의 검증 과정을 본인의 개인연구에 접목하여 발표해 준 부분도 흥미로웠습니다.


  • 2020-08-25 17:07

    NLP에서 기존의 Word2vec, Glove 같은 문맥을 고려하지 않은 representation을 넘어 현재는 거의 모든 연구에서 BERT, GPT와 같은 문맥을 고려한 Contextual representation을 사용하여 downstream task를 수행하고 있습니다. 본 세미나에서는 모델들마다 contextual representation에 대해 분석을 진행하고 향후 downstream task에서 더 유용한 모델들에 적용하면 좋겠다는 언급을 하고 있습니다. representation을 검증하기 위해 1. 동일한 단어들에 대한 레이어마다 유사성 검증 / 2. 문장과 단어들의 유사성 검증 / 3. 다양한 문맥에서의 variance 비교(MEV)를 통해 얼마나 context를 반영하는지를 살펴봅니다. 본인들이 비교를 위해 metric을 세우고 이에 대한 실험 및 분석이 탄탄한 논문이였습니다. 발표자께서는 해당 idea를 시퀀스의 이상치 분야에 적용하여 representation을 비교하였는데 특히 MEV에서 BERT, GPT2 모두 층마다 높은값을 가지는 것을 볼 수 있었습니다. 이는 context를 잘 고려하지 못한다고 볼 수 있는데, log 자체의 token이 부족하기도 하고 code와 같이 특정한 패턴으로 나타나서 정적인 성향을 보이지 않았나 생각합니다. 논문의 흐름을 본인의 개인연구에 적용하여 실험하였는데 이에 대해 깊이 고민한 흔적들을 간접적으로 느낄 수 있었습니다.


  • 2020-08-28 14:31

    오늘 세미나의 주제는 다양한 Embedding 방법론 중 어떤 방법론이 Context Representation을 갖고 있는지를 비교한 연구와 관련된 논문입니다. 해당 논문에서는 Contextuality 를 측정할 수 있는 세가지 정량적 측정방법 Self Similarity, intra-sentence similarity, MEV를 제공합니다. 최근 나온 모델들이 Contextualized Representation을 포함하고 있기 때문에 과거 모델보다 성능이 좋다는 것은 가정으로 남아 있었는데 오늘 설명해주신 논문을 통해 그것이 어느정도 진실과 가깝다는것을 알 수 있었습니다. EMNLP에서 다양한 관점으로 NLP 모델들을 관찰한 논문들이 많이 나오고 있는거 같습니다. 새로운 방법론을 연구하고 그 우수성을 입증하는 논문도 좋지만 다양한 시각에서 NLP 모델들을 비교한 논문이 현재 공부하고 있는 분야를 이해하는데 더 큰 도움이 되는 것 같습니다. 좋은 발표 감사합니다.


  • 2020-08-31 17:15

    오늘 세미나 에서는 BERT ,ELMO, GPT 에 대해서, 임베딩관점에서 학습과정에서의 의미적 차이를 조금 직관적으로 알 수 있는 시간이였습니다. 사실 NLP 쪽에서 임베딩은 BERT 관련 논문들을 주로 다루었기 때문에, 다른 방법론들의 의미론적 부분을 파악하기 쉽지않았는데, 좋은 시간이였습니다. Contextual 정보를 파악할 때 정량적 지표로 기존에 있던 자카드 유사도와 비슷한 느낌을 받았고, 조금 더 구체적인 지표들을 통해 유사도 부분을 파악할 수있었습니다. 해당 지표들은 추후 제가 공부하는 임베딩 부분에서도 유용한 지표로 활용 할 수 있을 것 같습니다. 또 BERT의 해석을 위해 Layer 별 attention map 을 보는 경우가 많은데, 마지막 layer 에서는 항상 mask token 에 집중 하는 경우가 많았던 것 같습니다. 이 부분이 오늘 논문에서 bert 마지막 layer 에서 유사도 관점 성능변화와 어떤 유의미한 연결점이 있을지 고민해 보는것도 좋을 것 같습니다.


전체 506
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10590
관리자 2020.03.12 0 10590
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9186
관리자 2020.03.12 0 9186
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10303
관리자 2020.03.12 0 10303
503
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (6)
Woojun Lee | 2025.05.20 | 추천 0 | 조회 82
Woojun Lee 2025.05.20 0 82
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (8)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 95
Jinwoo Park 2025.05.16 0 95
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (9)
Hun Im | 2025.05.15 | 추천 0 | 조회 94
Hun Im 2025.05.15 0 94
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (16)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 208
Junyeong Son 2025.05.08 0 208
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (15)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 186
Doyoon Kim 2025.05.01 0 186
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 342
Sunghun Lim 2025.04.24 0 342
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 237
Suyeon Shin 2025.04.21 0 237
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 229
Woongchan Nam 2025.04.16 0 229
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 483
Kiyoon Jeong 2025.04.16 0 483
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 500
Hyeongwon Kang 2025.04.09 0 500

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호