[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5)

Paper Review
작성자
Yukyung Lee
작성일
2020-05-25 21:32
조회
13914
1. Topic

- Transformer 기반의 언어모델들에대한  정리 및 비교 (2018~2019년 발표된 논문)

2. Overview

Natural Language Process (NLP)는 transformer의 등장으로 엄청난 발전을 이루었다. 특히 2018년에 발표된  BERT와 GPT는 Transformer 기반의 모델로서 다양한 NLP task에 높은 성능을 보였다. 본 발표는 BERT 발표 이후 T5모델이 발표될 때까지 NLP에서 높은 성능을 보인 모델 6가지를 정리하고 비교하며, 특히 XLNet과 T5에 초점을 맞추어 구성하였다.  (XLNet, RoBERTa, MASS, BART, MT-DNN,T5)

3. 발표자료 및 발표영상

[1] 발표자료

[2] ">발표영상

4. 참고 문헌
  1. XLNet : Generalized Autoregressive Pretraining for Language Understanding [link]
  2. RoBERTa : A Robustly Optimized BERT Pretraining Approach [link]
  3. MASS : Masked Sequence to Sequence Pre-training for Language Generation [link]
  4. BART : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension [link]
  5. MT-DNN :Multi-Task Deep Neural Networks for Natural Language Understanding [link]
  6. T5 : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [link]
전체 13

  • 2020-06-05 19:30

    BERT의 진화과정을 살펴 볼수 있었습니다. XLNet은 mask prediction의 문제점을 지적하며, permutation을 이용한 auto regressive하게 예측을 하였으며, RoBERTa는 BERT의 masking data를 epoch마다 생성시켜 데이터의 다양성을 향상 시켰고, next prediction을 제거하여 문장간의 관계의 자유도를 높인 것 같습니다. 다음으로 MASS는 masking을 일정범위로 fragment로 정의하여, 예측을 auto-regressive하게 하는 방법(GPT decoder)이었고, BART의 경우에도 AE+AR모델로 token masking과 token deleting, token counting from masking의 정보를 예측하는 denoising기법을 사용하였습니다. MT-DNN은 다양한 task에 대해서 fine-tuning에 대한 성능향상을 확인할 수 있었습니다. 여기서 task에 대해서도 랜덤하게 학습하였다는 점에 다양한 task들의 정보들을 딥러닝모델이 담겨질수 있다는 점이 인상깊었습니다. 마지막으로 T5 NLP Task에 대해서 AE-AR 형태로 가장 global한 모델 구조를 가지는 것 같습니다.


  • 2020-06-10 16:49

    현재 대다수 NLP연구는 대용량의 Corpus를 활용해 Language Model을 학습하고(Pre-Training), 이후 다양한 Downstream Task에 대해 적용(Fine-Tuning)하는 Language Model 기반의 방법을 사용합니다. 본 발표에서는 GPT-2 이후부터 현재 SOTA 성능을 보유하고 있는 Text-to-text Transfer Transformer(T5)까지의 흐름(XLNet, RoBERTa, MASS, BART, MT-DNN, T5)을 설명합니다.

    기존 BERT는 Masked Language Model Task로 다양한 Downstream Task에 대해 SOTA를 달성하였으나, 각 토큰이 독립적이라는 가정으로 인한 한계를 보유하고 있습니다. GPT의 경우 Auto Regressive한 Task로 좋은 성능을 냄과 동시에 Generation Task에 대한 강점을 보유하고 있으나, Bidirectional한 학습이 불가능하다는 한계를 갖습니다. XLNet에서는 Factorization order를 통한 양방향 학습을 진행하여 GPT의 한계를 극복하고, AR formula를 통해 BERT의 한계를 극복합니다. RoBERTa의 경우 BERT가 underfit되었다는 다수의 증거가 포착됨에 따라 BERT에 최적화를 적용하여 Model의 학습 시간을 증가시키고, Batch Size를 증가시키며, Train Data를 증가시킵니다. 이를 통해 성능의 개선을 이루어 냅니다.

    MASS의 경우 Transformer Encoder와 Decoder의 Input에 변화를 줌으로써 Decoder가 Encoder에 더욱 의존할 수 있도록 변화를 주었고, BART에서는 Seq2Seq Model을 Pre-Train하는 방식으로 성능의 향상을 이루어 냅니다. 이를 위해 총 5가지의 Task를 수행합니다. MT-DNN의 경우 BERT에 Multi-task Learning을 적용하여 이전 Task로부터 학습한 지식을 이용하여 다음 Task를 수행하는 방식으로 성능을 향상시켰고, 마지막으로 T5에서 모든 Task를 통합할 수 있도록 Text-to-Text 프레임워크를 사용하여 현재 최고 성능을 기록하고 있습니다.

    Encoder Only(BERT) 또는 Decoder Only(GPT)에서 Encoder-Decoder를 결합한 Language Model로 발전하고 있는 추세를 파악할 수 있었으며, Generation Task를 수행할 수 있도록 Model이 진화하고 있음을 알게 되었습니다. SOTA성능을 달성하기 위한 다양한 아이디어를 접할 수 있어 매우 유익한 발표였습니다. 감사합니다.


  • 2020-05-26 14:16

    전통적으로 RNN계열을 사용하던 언어 모델들은 몇 년 전 부터 transformer기반 모델들을 사용하는 형태로 변화했습니다. 다양한 모델들을 발전 순서로 일목요연하게 정리해주셔서 굉장히 많은 도움이 되었고 특히 각 모델의 특징을 몇줄로 요약해주셔서 한 눈에 와닿았습니다. 특히 XLNet의 Permutation Language Modeling은 해당 내용을 처음 본 사람도 잘 이해할 수 있도록 잘 풀어서 설명해 배울 점이 많았습니다. 이번 세미나의 핵심은 최근 다양한 분야에서 높은 성능을 기록하고 있는 T5 모델이었습니다. T5는 Text to Text라는 프레임워크를 도입해 자연어처리의 다양한 task를 공통된 형식으로 통합시켰습니다. 높은 성능과 함께 수많은 실험을 진행한 것이 굉장히 인상깊은 논문이었습니다.
    소개해주신 다양한 논문들을 관통하고 있는 하나의 주제는 self-supervised learning이라고 생각합니다. 대부분의 방식이 원 input에 noise를 주고 AE 혹은 AR 방식을 통해 이를 복구함으로써 언어의 특징을 모델 스스로 학습합니다. 이번 발표 덕분에 자연어에서의 self-supervised learning의 흐름을 확실히 머릿속에 각인할 수 있었습니다. 감사합니다.


  • 2020-05-26 19:32

    seq2seq 모델을 시작으로, attention mechanism, 그리고 transformer, BERT 등 자연어 처리의 중심이 되는 모델들을 발전 순서에 따라 소개해주어 좋았습니다. 각 모델의 핵심 내용을 중심으로 발전된 내용을 짚어주어 흥미롭게 들었습니다. 다만 저는 자연어 처리 분야에 핵심이 되는 모델 몇 가지만 알고 있고, contribution이나 모델 아키텍처 구조 중심으로만 공부를 해서 자세한 학습 방식이나, 코드 측면에서 알지 못하는것이 많아서 와닿지 못하는 부분이 꽤 있었습니다. 이 발표를 기점으로 깊이 알아보고 싶은 내용이 생겨서 좀 더 공부해볼 수 있는 기회가 되었습니다.
    그렇지만 학습 과정에 핵심이 되는 과정들을 간단한 예시를 통해 설명해주어서 이해하기 좋은 부분도 있었습니다.
    전체적으로, 수많은 NLP task를 풀기 위해 모델들이 어떠한 단점 혹은 문제점을 찾아내고 개선하기 위해 어떠한 테크닉을 썼는지, 그러기에는 연구자로서 어떤 자세를 가져야 하는지에 대해 다시 한번 생각해볼 수 있던 발표였습니다.


  • 2020-05-26 20:10

    NLP에 대한 큰 줄기의 모델 흐름에 대한 요약과 각 모델에 대한 설명을 소개하였습니다. 본인만의 요약으로 각 모델에 대한 핵심 키워드 및 Flow를 설명하여 과거부터 지금 현재까지 어떻게 연구방향이 진행되고 있고 어떤 부분이 추가되고 있는지에 대해 명확하게 알 수 있어서 좋았습니다. 특히 Transformer 계열의 변화가 두드러지는데 현재는 Encoder, Decoder를 모두 활용하여 Task Agnostic한 모델을 만드는 것을 볼 수가 있었습니다. 개인적으로 MT-DNN 모델의 아이디어가 특히 좋았다고 느껴졌습니다. 일반적으로 Transformer 계열의 representation을 나타내기 위해 MASK, Next sentence prediction 와 같은 한정된 것으로 학습하여 pre-trained 모델을 학습하였지만 MT-DNN 모델은 다른 Task의 label이 달린 데이터를 이용하여 각각 task 레이어를 윗단에 쌓아 더 많은 데이터로 학습함으로 인해 궁극적으로 더 좋은 모델의 representation을 얻는다는 것입니다. NLP 데이터마다 서로 도메인의 특성에 따라 다르지만 모델 자체에서 궁극적으로 공통점 및 차이점을 학습하지 않나라는 느낌을 받았고, 결국은 데이터를 더욱 활용하여 모델을 고도화 시킨게 아닐까 싶습니다. 해당 아이디어를 다른 분야에도 적용할 수 있을 것 같았습니다. 많은 논문들을 읽고 분석하여 좋은 발표해준 이유경 학우님께 감사를 표하며, 개인 연구 결과도 좋길 바랍니다.


  • 2020-05-28 15:57

    Sequence to Squence 부터 최근 SOTA를 찍은 T5까지 자세하고 간략한 정리하여 발표하였습니다. 특히 Xlnet에서 permutation 을 활용하여 [MASK] 토큰을 사용하지 않고 Bidirectional Language 를 학습하는 것은 아주 놀라운 아이디어로 보입니다. 하지만 Permutation 을 통해 생성한 모든 Sequence에 대하여 Attention등을 적용할 시 Computing power와 Memory 사용량이 부담스러워 보입니다. 오늘 말씀주신 본인 개인 연구도 동일한 문제를 겪고 있는거 같습니다. 요즘 Computing 및 Memory를 줄이는 방법들이 많이 개발되었습니다. 예) Local-Hashing Attention, 개인연구에 해당 기술들을 포함시키면 더 좋은 결과가 있을것 같습니다.


  • 2020-05-28 20:00

    이번 세미나는 Seq2Seq부터 T5까지의 모델 설명과 그 중에서 XLNet과 T5를 자세하게 다룬 세미나였습니다. 처음에 도표로 Seq2Seq부터 차근차근 다시 복습할 수 있었고 각각의 모델들에 대한 핵심 설명을 해주어 좋았습니다. 그 중 XLNet에서 permutation을 사용하여 단일 방향으로 학습하는 단점을 탈피한 점이 참신했고 다른 모델에도 확장 가능하다는 생각이 들었습니다.
    또한 T5에서 input text속에 task를 부여하여 'text to text'를 구현하는 것에 대해 자세하게 배울 수 있었습니다. Anomaly detection을 하는 이유경 석사과정의 개인 연구에서 이를 어떻게 접목시켜 성능을 향상시키는지 기대가 됩니다. 6개가 되는 모델을 포인트를 짚어서 그 맥락을 다시 파악할 수 있었고 새로운 SOTA를 찍은 T5를 새로 배워 매우 교육적이었습니다. 감사합니다.


  • 2020-05-28 20:31

    개인연구나 과제를 진행하다보면 최신 연구 동향을 놓치는 경우가 많은데, 그러한 결핍을 채워주는 유익한 세미나였습니다. 딥러닝을 사용하는 많은 분야에서, 특히 자연어의 경우 대용량의 unlabeled 데이터를 사용하는 사전학습은 성능향상을 위해 필수적인 작업이 되었습니다. 특히 BERT 이후 많은 모델들이 제안되었는데, 오늘 설명된 모델들 중 신선한 pre-training task를 도입한 모델이 많이 보였습니다. 특히 [MASK]가 어떤 토큰일지 예측하는 것이 아닌, [MASK] 자리에 몇 개의 토큰이 들어갈지를 예측하는 text infilling이라는 task를 도입한 BART가 기억에 남습니다. language modeling 관점에서 단어 자체를 예측하는 것이 더 의미있을 것이라고 생각했는데, 몇 개의 토큰이 들어갈지를 예측하는 task가 언어를 이해하는데 도움을 준다는 사실이 굉장히 신기하고 신선했습니다. 추가적으로, 많은 사람들이 사용하고 놀라운 성능을 가진 BERT의 단점을 파악하고 이를 보완하는 다양한 후속 모델들을 보며 연구를 대하는 자세에서도 느껴지는 것이 많았습니다. 또 반대로는, 점점 커져가는 pre-trained 모델의 규모를 보며 학생으로서 자연어 연구에서 어떠한 포지셔닝을 취해야 할지에 대한 고민 또한 해봐야겠다는 생각이 들었습니다.


  • 2020-05-28 23:58

    연구 동향을 알아볼 수 있는 시간이었습니다. 발표자가 생각한 중요한 논문이 무엇인지 그리고 그 논문이 왜 중요하다고 생각했는지에 대한 설명이 있어 좋았습니다. 간략하게 넘어가는 논문들에서도 발표자가 생각하는 핵심이 무엇인지 명확하게 집고 넘어가서 논문을 읽어본 사람들에게는 전달하고자 하는 내용이 잘 와닿았을 것이라 생각합니다. 보다 자세하게 설명한 XLNet과 T5에서는 적절한 예시를 들어 이해가 쉬운 발표를 구성하였습니다. NLP의 연구 동향은 결국 Transformer를 분기점으로 나누어 지는 것 같습니다. 이번 세미나에서 다루었던 논문들을 포함하여 BERT이후에는 아무래도 BERT와 Transformer를 잘 조합한다거나 BERT를 간소화 하거나 [MASK] token에 대한 여러 실험들을 진행하는 방향으로 연구가 진행되고 있습니다. 대학원생의 입장에서 이러한 큰 맥락을 좇는 연구는 resource의 한계로 진행하기 어렵지만, 산업공학도로서 개인연구에 잘 녹여낼 수 있는 방법들이 있지 않을까 생각합니다. 좋은 개인연구 방향을 찾을 수 있으면 좋겠습니다.


  • 2020-05-29 13:35

    BERT 논문 세미나 이후, 다양한 트랜스포머와 관련된 NLP 논문을 접하였었습니다. 많은 논문들이 쏟아져 나와 모든 논문을 다 읽을 수 없었는데, 중요한 논문들의 흐름을 잘 정리하여, 핵심을 파악할 수 있었습니다. 특히 흐름을 정리하기위해 발표자가 개별 논문을 다 접하고, 세미나 시간안에 전달하고자 하려고 했던 내용을 위한 노력을 볼 수 있었습니다. XLNet과 T5 가장 최신 NLP 논문들인데 해당 방법론을 접할 수 있었습니다. 트랜스포머의 인코더와 디코더의 사용여부, 그리고 데이터 학습 과정 및 방법에 따라 다양한 방법론들이 파생되었는데, mask 토큰의 적절한 생성방법을 통해 유의미한 성능 향상이 있는 것에 영감을 많이 받았습니다. 이러한 부분을 다른 분야에 적용하여도 유의미한 해석이 될 수 있을 것 같습니다.
    항상 개인연구분야에서 NLP 의 Sequence 처리 관련 최신동향은 꾸준히 숙지하고 있어야 했는데, 오늘 세미나에서 좋은 유익한 정보 얻어갑니다.


  • 2020-05-29 13:48

    이유경 석사 과정의 발표를 통해 해당 연구 분야의 연구 동향을 개괄적으로 파악할 수 있어 좋았습니다. 그 연구의 흐름 속에서 본 세미나 시간에 중요하게 다루고자 했던 논문이 나오게된 배경을 알 수 있어 훨씬 더 쉽게 내용이 파악된 것 같습니다. 오늘 발표하신 XLNet과 T5 중에서 XLNet 모델에 대해서는 정확히 그 근간이 무엇인지 파악하지 못하고 있었는데 오늘 세미나를 통해 배울 수 있었습니다. NLP task 관련 연구들은 특정 모델을 개선할 때 모델의 성능이 좋지 않은(혹은 더 좋을 수 있는) 이유를 파악하는 과정이 굉장히 창의적인 것 같습니다. XLNet에서 그것을 또 한 번 느꼈습니다. 앞으로의 연구에 참고할만한 좋은 발표였던 것 같습니다.


  • 2020-05-29 18:58

    본 세미나시간에는 이유경 석사과정이 NLP에서의 Language Modeling의 현재까지의 Milestone 논문들의 흐름들과 최종적으로 T5:"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" 논문에 대해서 다루어 주었습니다. 특히, 현재까지의 transformer기반의 논문들의 특징들을 AE 혹은 AR 관점에서 설명하고, 그 장단점을 하나씩 열거하여 그 흐름을 잘 파악할수 있는 좋은 세미나 시간이였다고 생각합니다. T5논문에서는 논문에서 제안한 Text to Text라는 프레임워크로 기존 다양한 sub-task들을 한번에 학습하여 현재의 SOTA까지 이룬점이 인상적이였습니다. 특히, 논문의 appendix에 있는 빼곡한 result table은 해당 연구가 논문을 위해 수행한 실험의 어마어마한 volume을 가늠할수 있었고, 그 노력과 고생이 느껴졌습니다. 현재 다수의 SOTA 논문들이 그 연산의 양이 현재 개인의 연구수준으로는 범접하기 힘든 영역에까지 도달했다는 점에서 개인적으로는 많은 회의감을 들기도 하지만, 더이상 깨지지않을 것 같은 성능들이 계속해서 갱신되는 점을 보며, 많은 생각이 들었습니다. 연구실에서의 첫 세미나를 매우 잘 준비해준 발표자에게 감사의 말씀전합니다.


  • 2020-06-03 22:16

    금일 발표는 "Transformer to Text to text transfer transformer"라는 주제로 진행되었습니다. 본 발표는 Natural Language Process (NLP)에서 급격한 발전을 이루어낸 tranformer 기반의 모델 6가지를 정리 및 비교하였으며, 특히 XLNet과 T5에 초점을 맞추었습니다. 먼저 본 발표의 초반에서 Seq2Seq부터 T5까지 NLP에서 두각을 나타낸 총 12개의 방법론에 대한 주요 특징과 키워드를 통해 NLP 주요 모델의 변천사를 살펴 볼 수 있었습니다. 단 2페이지로 중요한 모든 NLP 모델들의 특징을 정리하고 이를 비교함으로써 NLP 모델의 trend를 파악할 수 있도록 제시한 부분이 굉장히 인상적이었으며, 해당 페이지를 통해 발표자가 발표를 위해 투자한 시간이 상당함을 알 수 있어 초반부터 집중할 수 있는 발표였습니다. 또한, 6개의 모델을 발표하는 과정에서 각 모델이 이전에 제안된 방법론과 어떠한 차이가 있는지를 명확하게 제시해주어 많은 양의 발표 내용을 이해하기에 수월하였습니다. 특히 요즘 개인연구에서 language model을 실제로 사용하고 있는데, 다양한 transformer 기반 모델의 비교를 통해 제 개인연구에서 어떤 모델이 더 좋은 결과를 도출할 수 있을지에 대해 생각하게 되는 발표였습니다. 마지막으로 논문을 논문 자체의 흐름이 아닌 본인만의 흐름으로 재구성한 발표자의 자세를 배울 수 있는 유익한 발표였습니다.


전체 503
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10473
관리자 2020.03.12 0 10473
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9084
관리자 2020.03.12 0 9084
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10202
관리자 2020.03.12 0 10202
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 23
Junyeong Son 2025.05.08 0 23
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 104
Doyoon Kim 2025.05.01 0 104
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 212
Sunghun Lim 2025.04.24 0 212
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 161
Suyeon Shin 2025.04.21 0 161
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 188
Woongchan Nam 2025.04.16 0 188
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 365
Kiyoon Jeong 2025.04.16 0 365
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 385
Hyeongwon Kang 2025.04.09 0 385
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 382
Jaehyuk Heo 2025.04.02 0 382
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 373
Jaehee Kim 2025.04.02 0 373
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 303
Jungho Lee 2025.04.02 0 303

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호