Seminar

BOARD

[Paper Review] DeBERTa: Decoding-enhanced BERT with Disentangled Attention

Paper Review

작성자

Subin Kim

작성일

2021-07-20 00:14

조회

5446

1. Topic

두 가지의 Novel Technique으로 BERT와 RoBERTa를 개선하여 SOTA 성능을 달성한 DeBERTa 모델을 소개합니다.

DeBERTa 논문은 마이크로소프트에서(Microsoft)에서 발표하여 ICLR 2021에 accept된 논문입니다.

2. Overview

1) 두 가지의 Novel Technique으로 BERT와 RoBERTa를 개선
• Disentangled Attention Mechanism
: 각 단어의 Attention weight를 서로 독립인 두 벡터 content vector 와 position vector의 조합으로 표현
• Enhanced Mask Decoder
: Masked Language Model(MLM)로 pre-training 시, [Mask] token을 예측하는 layer에서
Absolute position 정보를 추가한 Enhanced Mask Decoder를 사용

2) Pre-training efficiency 및 Performance Improvement
• Pre-training 단계에서의 학습 효율(efficiency)이 향상되었고, NLU(Natural Language Understand)와
NLG(Natural Language Generation) downstream task에서도 성능 향상이 있었음을 보임

3. 발표자료 및 발표영상

[1] 발표자료 : 하단첨부

[2] 발표영상 : ">link

4. 참고 문헌

[1] DeBERTa : Decoding-enhanced BERT with Disentangled Attention link

[2] Self-Attention with Relative Position Representations link

[3] Transformer-XL: Attentive Language Models Beyond a Fixed-Length link

전체 18

Kyoungchan Park

2021-08-15 22:40

금일 세미나에서는 BERT의 변형 논문에 대해 소개해주었습니다. 기존의 RoBERTa에 이어 높은 성능을 달성한 논문으로 이를 위해 Disentangled Attention Mechanism과 Enhanced Mask Decoder 두 가지 아이디어에 대해 제안하였습니다. 핵심은 content와 position 의 관계를 고려한 attention 메커님즘으로 이해했는데 예시를 통해 설명해주셔서 주로 공부하는 분야가 아님에도 직관적인 이해를 할 수 있었습니다. 결국 자연어처리 모델에서는 내용을 잘 파악하기 위해 attention 메커님즘을 어떻게 잘 적용하는 것인지가 관건인 것 같습니다. 앞으로 어떤 연구들이 또 다시 더 높은 성능을 달성해 SOTA를 찍을지 매우 궁금해지게 되었습니다. 좋은 발표 감사드립니다.
Yunseung Lee

2021-08-16 11:02

금일 세미나는 “DeBERTa: Decoding-enhanced BERT with Disentangled Attention”에 대한 리뷰로 진행되었습니다. DeBERTa는 이름에서도 확인할 수 있듯, 기존의 BERT와 RoBERTa에 새로운 기법들을 적용하여 SOTA성능을 달성한 모델입니다. 첫번째 기법은 Disentangled Attention 매커니즘인데, attention을 계산할 때 기존 input representation을 content vector와 position vector로 분리하여 활용합니다. 두번째 기법은 MLM task로 학습 시 masked 토큰을 예측함에 있어서 절대적인 위치정보를 추가한 encoder를 사용합니다. 2가지 개선을 통해 downstream task에서 성능 향상을 이끌어냈는데, 잘 알려진 2개의 모델에서 일부 기법을 적용하여 성능을 추가적으로 개선했다는 점에서 인상적이었습니다. 또한, 중간중간 발표자 분의 논문에 대한 의견도 함께 공유해주셔서 다양한 시각에서 논문 리뷰를 들을 수 있었습니다. 좋은 발표 감사합니다.
Euisuk Chung

2021-07-19 15:23

이번 세미나는 "De BERT a : Decoding-enhanced BERT with dis-entangled attention"에 대해서 발표해주셨습니다. 본 논문은 BERT와 RoBERTa를 개선한 논문으로 다음 두 가지 Novel Technique을 사용합니다.

(1) Disentangled Attention Mechanism : 각 단어의 Attention weight를 서로 독립인 두 벡터 content vector 와 position vector의 조합으로 표현하여 3가지 content-to-content, content-to-position, position-to-content (position-to-position 제외)로 cross attention을 구성함
(2) Enhanced Mask Decoder : Masked Language Model(MLM)로 pre-training 시, [Mask] token을 예측하는 layer에서 Absolute position 정보를 사용하는 Layer를 추가로 구성함

논문에서는 (1)과 (2)를 통해 Pre-training 단계에서의 학습 효율(efficiency)이 향상되었고, NLU(Natural Language Understand)와 NLG(Natural Language Generation) downstream task에서도 성능 향상이 있음을 실험적으로 보여주었습니다. content to position과 position to content의 경우 글로만 읽었으면 정말 이해하기 난해할 만한 설명이었을텐데 이를 시각적으로 잘 풀어서 설명해주셔서 매우 직관적으로 이해할 수 있었습니다. 뿐만 아니라 발표자 본인의 의견과 해당 논문 만의 novelty를 잘 파악하고 이를 찝어주셔서 매우 유익했습니다. 좋은 발표 들려주셔서 감사합니다.
Jungho Lee

2021-07-19 19:19

DeDERTa 논문에서 Disentangled attention 을 사용했는데, 위 방법은 cross attention 을 사용하여, position vector 와 content vector 간의 attention 계산시 기존의 relative positional encoding 에서 content 기준으로만 계산되던 attention 에 추가로 position vector 기준으로의 상대적 attention 이 추가된 것으로 이해 했습니다. 제가 이 attention 을 재미 있게 들었는 것은 제 개인연구에서 attention 을 계산 할 때, 실제로 방향성에 대한 정보를 사용 해야 했습니다. a to b , b to a 가 방향성을 가진 정보이기 때문에 이를 활용하기 위해 DeBERTa 에서 제안한 cross attention 은 좋은 아이디어가 될 것 같습니다. 뒷단의 레이어 에서는 다시 absolute position 정보를 추가하여 학습하는데, 이는 실험적으로 증명이 됬을 것 같긴 하지만, 실제로 적용 할때는 무수한 반복이 요구 될것 같습니다. 해당 논문을 수식적으로만 접했을 때는, 이해가 바로 되지 않았으나, 오늘 발표에서 수식과 더불어 충분한 이해를 도울 수 있는 자료들을 잘 구성 해주어서, 짧은 시간내에 많은 이해를 했습니다. 좋은발표 감사합니다.
Donghwa Kim

2021-07-20 12:41

이번세미나에서는 DeBERTa: Decoding-enhanced BERT with Disentangled Attention에 대한 논문을 발표해 주셨습니다. 이 논문의 특징을 BERT의 입력레이어에 사용되는 positional embedding을 transformer encoder Q, K, V에 적용시켰다는 것입니다. 또한 BERT의 positional embedding은 learnable discrete function인데 해당논문의 positional embedding 임베딩은 input embedding에 직접적으로 연결되게 Disentangled attention mechanism을 추가하였습니다. Positional, input vector의 양방향성을 고려했다는 점도 인상깊었습니다. 좋은 발표감사합니다.
Hyeyeon Kim

2021-08-16 19:00

이번 세미나는 DeBERT: Decoding Enhanced BERT with disentangled attention 에 대한 세미나였습니다. 해당 방법론은 BERT와 RoBERTa를 개선한 모델로서, disentangled attention mechanism을 사용하였고, enhanced mask decoder를 사용했다는 점이 특징입니다. 이러한 구조로 인해 pre-training단계에서 학습 효율이 향상되었고, NLU, NLG모두 잘 수행하였습니다. 또한 각각의 개선 방안으로 인해 relative position embedding, absolute position embedding 을 모두 도입할 수 있습니다. 발표 중간 중간 발표자의 입장과 논문의 주장을 분리하여 설명하고, 두 개선 방안에 대한 자세한 설명으로 인해 기존 방법론에서 어떤식으로 발전이 되었는지 잘 알 수 있었습니다. 좋은 발표 감사합니다.
Jounghee Kim

2021-07-22 14:06

이번 세미나에서는 Disentangled Attention Mechanism과 Enhanced Mask Decoder를 활용하여 기존 방법론인 BERT와 RoBERTa의 성능을 향상시킨 DeBERTa에 대해 설명해 주셨습니다. 해당 논문의 가장 큰 Contribution 중 하나인 Disentangled Attention Mechanism 기법은 데이터의 다양성을 설명하는 latent 요소들을 분리함으로써 interpretability를 향상시키는 방법입니다. 이 방법을 BERT의 Attention 메커니즘에 적용함으로써 Content의 정보와 relative position 정보를 각각 따로 사용하여 attention weight를 적용합니다. 즉 Content와 position 정보를 분리함으로써 각 토큰 사이의 관계를 더 명확하게 학습함으로써 기존 BERT의 성능을 향상시켰습니다. 두번째 기여점인 Enhanced Mask Decoder는 마지막 Transformer Layer에 MLM을 적용함으로써 하단의 Transformer에서는 Disentangled Mechanism을 학습하고 상단의 Transformer에서는 글로벌 위지정보를 고려하여 pre-training 하도록 구조를 변경하는 방법론입니다. BERT가 나온지 거의 3년이 지나가고 있지만 여전히 해당 구조를 변형하여 성능을 향상시키는 논문들이 많이 등장하고 있습니다. 그 이유는 아마도 Transformer의 Self-Attention 매커니즘이 매우 뛰어나기 때문인 것으로 생각됩니다. 매우 흥미로운 주제를 발표해주셔서 감사합니다.
Myeongsup Kim

2021-07-25 15:39

오늘 세미나에서는 GLUE Benchmark에서 매우 높은 성능을 기록한 DeBERTa에 대해 소개해 주셨습니다. GLUE Benchmark의 경우 아직까지 많은 연구에서 Language Model을 평가하는 표준으로 사용되기에, 해당 Benchmark에서 높은 성능을 보이는 Model의 구조를 확인할 수 있어 좋았습니다. DeBERTa는 Relative Positional Embedding을 활용한 Disentangled Attention과 Absolute Positional Embedding을 활용한 Enhanced Mask Decoder 구조를 제안하였습니다.

Disentangled Attention의 경우 Hidden Representation과 Relative Position Embedding 각각에 대해 Linear Projection을 수행하고 Hidden Representation을 Query, Key로 사용하는 Attention과 더불어, Representation과 Position Embedding을 각각 Query, Key / Key, Query로 사용하는 Attention을 수행한 뒤 결과를 합하여 Attention Score Matrix를 형성하는 방식을 사용합니다. 해당 방식을 통해 특정한 Token을 기준으로 가까운 Token과 멀리 떨어진 Token에 대한 정보를 구분하여 Representation에 반영할 수 있게 됩니다.

Enhanced Mask Decoder의 경우에는 Absolute Positional Embedding과 Hidden Representation을 입력으로 받아 전자를 Query로, 후자를 Key, Value로 활용하는 Self-Attention을 수행합니다. 결과적으로 Global Context를 반영한 Representation을 얻을 수 있게 되며, 해당 과정에서 ALBERT에 사용된 기법과 같이 Layer간 Weight를 공유하여 Parameter를 줄입니다.

작년에 진행했던 세미나에서 Self-Attention의 경우 Semantic Boundary를 무시하고 Sequence에 포함된 의미적으로 관련이 없는 Token의 정보까지 반영하는 한계가 있다는 것을 언급한 적이 있습니다. DeBERTa에 적용된 Disentangled Attention은 Token간의 상대적 거리를 사용하여 그에 따른 정보를 구분하기에 이러한 한계를 부분적으로 완화할 수 있었다는 생각이 들었습니다. 다른 Data와 다르게 자연어의 경우 위치와 순서에 따라 의미가 변화하는 경우가 많기에, 이를 보다 잘 반영할 수 있는 구조를 고안한 것으로 느껴졌습니다. 더 좋은 Representation을 얻기 위해 Data의 특성에 대한 많은 고민을 하고 이를 잘 반영할 수 있도록 Module을 설계한 좋은 논문으로 느껴졌습니다. 좋은 발표 진행해 주시어 감사드립니다.
Hoonsang Yoon

2021-07-25 15:43

본 세미나는 기존의 BERT / RoBERTa의 성능을 향상시키기 위하여 두 가지 전략을 추가한 DeBERTa를 소개하였으며, 해당하는 전략은 Disentangled Attention과 Enhanced Mask Decoder입니다. 전자의 경우는 기존의 Attention의 기능을 분해하여 Latent 안에 포함되어 있던 의미에 대한 계산을 더 직접적으로 하겠다는 뜻이며, 기존의 BERT에서 Position Embedding을 Absolute하게 정해줬던 것을 Relative Position Encoding으로 변화시켜, Attention 계산에 해당 요소가 반영되게 합니다. 예를 들어 'deep'과 'learning'간의 관계가 Position상으로 더 가까이 있을 때 Dependency가 높은 의미입니다. 후자의 경우는 Enhanced Mask Decoder인데 이는 MLM을 단순히 Decoder라고 이름을 바꿔 역할에 대하여 재정의한 것이며, 기존 BERT류가 사용하던 Absolute Position Embedding을 Softmax 이전에 활용하는 것입니다. NLU Task에서 BERT와 RoBERTa의 성능을 뛰어 넘는 것을 보였으나, 논문에서 RoBERTa와의 성능 비교를 중점적으로 다루는데 BERT와의 성능 비교는 부재한 이유가 궁금합니다. 첫 발표인데 좋은 장표와 발표 진행해주셔서 감사합니다.
Heejeong Choi

2021-07-25 19:30

금일 세미나는 "DeBERTa: Decoding-enhanced BERT with Disentangled Attention"라는 주제로 진행되었습니다. 본 발표에서는 Disentangled Attention Mechanism과 Enhanced Mask Decoder의 도입을 통해 BERT와 RoBERTa를 개선하여 SOTA 성능을 달성한 DeBERTa 모델이 소개되었습니다. 본 방법론에서 중요한 역할을 한 Disentangled Attention Mechanism과 Enhanced Mask Decoder 모두 position encoding에 집중하였는데, Relative Position Encoding과 Absolute position을 모두 활용하여 보다 발전된 position dependency를 반영해 준 점이 인상적이었습니다. 제가 관심을 가지고 있는 이상치 탐지 분야에서는 time dependency를 반영한 representation을 생성하기 위해 많은 방법들이 시도되고 있는데, 금일 논의된 아이디어를 활용할 수 있을지에 대해 생각해보는 시간이 되었습니다. 더불어 발표 중간 중간 발표자의 해석을 들으며 발표자가 논문을 그대로 받아들이는 것이 아니라 본인의 스타일대로 해석하고 어느정도 비판하는 자세를 가지고 있다는 생각이 들었고 본받아야하는 부분이라고 생각했습니다. 좋은 발표 감사합니다.
Seungwan Seo

2021-07-26 22:33

Transformer 에서는 sin과 cos를 사용하여 positional encoding을 진행한 embedding vector를 input에 더하는 방식으로 위치 정보를 모델에게 전달합니다. 이후 굉장히 많은 Transformer-based research들이 진행되고 있으며, 많은 연구들에서 이 positional embedding을 어떻게 생성할 것인지에 대해 고민하는 것 같습니다. Absolute와 relative를 고려하기도 하며 input에 더하기도 또 attention layer에 직접적으로 정보를 흘려주기도 합니다. 본 세미나에서 소개해주신 "DeBERTa: Decoding-enhanced BERT with Disentangled Attention" 에서도 encoder와 decoder에 다른 방식의 positional encoding을 진행하고 있습니다. 시간이 오래 지났음에도 여전히 성능 향상이 있다는 것은 연구자들이 self-attention과 positional embedding의 상관관계를 명확히 파악하지 못하기 때문이 아닐까 생각합니다. 앞으로는 또 어떤 아이디어가 등장할지 궁금합니다. 그리고 첫 발표인데도 슬라이드를 비롯한 발표 구성과 전달력이 너무 좋아 이해하는데 어려움 없이 들을 수 있었습니다. 좋은 발표 감사합니다.
Jina Kim

2021-07-29 02:28

오늘 세미나는 Disentangled attention mechanism과 enhanced mask decoder를 제안하여 학습 효율을 향상시킨 DeBERTa에 대한 내용으로 진행되었습니다. Disentangle이란 어떤 연산을 위해서 sub 연산들로 분리한 뒤, 이들을 취합하는 방식으로 원래 의도하던 연산을 하는 것이라고 할 수 있을 것 같습니다. 이러한 방식을 적용한 Disentangled attention mechanism는 content 정보와 절대적 위치 정보인 positional encoding을 더한 input representation을 기반으로 attention을 계산한 BERT와 달리, attention weight가 content 정보와 더불어 relative한 position 정보를 반영할 수 있도록 input representation을 content와 position 벡터로 분리하여 attention을 계산하는 방법입니다. 특히 분리한 vector에 대해 양쪽 방향 모두의 attention을 계산했는데, QA model들에서 query to context, context to query attention을 모두 사용하는 것과 유사한 방법이라는 생각을 했습니다. 논문에서 제시한 방법들이 어떤 이유에서 나왔는지 깊게 고민하고 나름의 결론을 말해주셔서 많은 도움이 되었습니다. 좋은 발표 감사합니다.
Jaehyuk Heo

2021-07-30 19:43

오늘 논문은 Microsoft에서 작성한 “DeBERTa: Decoding-enhanced BERT with Disentangled Attention”라는 논문으로 2021년 ICLR에 나온 논문입니다. 본 논문에서 배운 점은 disentangle이라는 개념입니다. 이전부터 듣기는 했지만 명확하지는 않았던 개념이라 제대로 이해하지 못한 부분이 있었는데 본 논문에서 disentangle에 대한 얘기를 해주셔서 알 수 있었고 이전에도 relative positional embedding 방법 들이 있었지만 단순히 query와 value에 relative한 값을 더하거나 self-attention에 relative position bias를 더하는 것이 아닌 content와 따로 relative position을 분리하여 계산하는 과정이 인상깊었습니다. 이전에 연구된 Transformer-XL에서도 이와 유사한 형태로 relative position을 적용하였지만 세미나 과정에서 이러한 부분의 차이점도 잘 준비해주셔서 이해할 수 있었습니다. 첫 세미나 발표였음에도 정성 어린 자료 준비와 많은 고민을 한 부분이 잘 전달 되었던것 같습니다. 앞으로도 좋은 발표 기대 많이 하겠습니다. 좋은 시간 준비해주셔서 감사합니다.
Takyoung Kim

2021-08-03 01:14

RoBARTa의 이름을 본뜬 DeBERTa에 대해 소개해주셨습니다. 기존 BERT나 RoBERTa와는 다르게 각 단어의 위치를 기준으로 relative positional embedding을 사용하였습니다. 거리 뿐 아니라 방향정보까지 활용할 수 있는 것이 특징입니다. 수식적으로는 content to position과 position to content에 대한 상대적 위치를 모두 고려합니다. 어려운 downstream task에 적용된 방법론을 decompose하여 성능을 높이는 논문을 최근 몇 개 보았는데, 본 논문 역시 BERT 내 핵심 방법론인 self-attention을 decompose한 것이 핵심인 것 같습니다. 개인적으로 position 관련 임베딩을 바꾸었는데 성능 향상이 큰 것이 인상깊었습니다. MLM task에 대해 더 탐색할 여지가 있다는 것처럼 느껴졌습니다. 발표 감사합니다.
Jeongseob Kim

2021-08-03 01:57

금일 세미나는 “DeBERTa: Decoding-enhanced BERT with Disentangled Attention”연구에서 제안한 DeBERTa 모델에 대해 진행되었습니다. BERT와 이를 개선한 RoBERTa 에 이은 SOTA 모델입니다. BERT구조를 기반으로 한 언어모델의 성능 개선이 계속되는 가운데 나온 논문이어서 관심을 갖고 보게 되었습니다. 본 모델은 발표자께서 앞서 오약해주셨듯, 2가지의 테크닉을 적용해 성능 개선을 얻어냈습니다. “Disentangled Attention Mechanism”과 “Enhanced Mask Decoder” 이 바로 그것입니다. 우선, 발표자께서 BERT와 RoBERTa에 대한 설명을 더해주셔서 조금 더 쉽게 본 논문의 모델을 집중해 들을 수 있었습니다. 이번 발표를 통해 “Disentangled” 개념에 대해 처음 듣게 되었는 데, 이를 활용해 Input representation을 다양하게 나눠 도입해주는 부분이 신선했습니다. 이를 통해, input token들의 상대적인 관계 정보를 도입할 수 있도록 한 점도 신선했습니다. 그리고 이 부분이 실제로 Query-key 연산 과정에서 어떻게 구체적으로 적용되는 지(상대적인 관계를 학습하기 위한) 예를 통해 단계별로 설명해주셔서 이해를 보다 쉽게 할 수 있었습니다. 인상깊었던 점은 Scale Invariant Fine-Tuning (SiFT) 를 활용한 점입니다. 물론 본 연구에선 Future work로 남겨 정확한 분석에는 어려움이 있겠지만, Robust한 성능을 얻기위한 방법들이 다양하게 적용될 수 있다는 점이 인상 깊었습니다. 전체적으로 깔끔하면서도 자세하게 설명해주셔서 조금 더 잘 이해할 수 있었습니다. 발표 전반에 걸쳐서 중간중간 “발표자의 해석”을 별도로 표기해주셔서, 정확한 이해도 높일 수 있었습니다. 개인적으로 Input token들의 상대적인 관계를 학습하도록 하는 부분이 novelty 면서도, 이해하기에 다소 난해하였는 데, 예시와 함께 보다 잘 이해할 수 있었습니다. 늘 그래왔듯 좋은 발표 감사드립니다.
Kyoosung So

2021-08-04 23:51

이번 세미나에서는 DeBERTa: Decoding-enhanced BERT with Disentangled Attention라는 논문을 주제로 진행되었습니다. 해당 논문에서 제안하는 모델인 DeBERTa는 attention 계산에 사용되는 input representation을 content와 position 벡터로 분리하여 학습에 사용하는 것을 골자로 하는데, 결과적으로는 content와 position 간 관계를 모델링하는 요소를 기존 BERT에 추가하는 모델입니다. 즉 기존의 BERT나 여러 기본적인 모델은 input token에 position embedding을 더하여 하나의 인풋으로써 활용하나 본 모델의 경우 token 정보가 다른 token 정보 뿐 아니라 token들 간의 relative position information에 대해서도 attention을 계산하도록 합니다. 기존 방식으로도 어느 정도 토큰의 위치 정보를 활용할 수는 있으나, 위와 같은 attention을 적용할 경우 두 정보를 좀 더 구분하여 위치에 따른 어텐션 반영을 좀 더 자연어에 맞도록 이용한다는 느낌을 받았습니다. 한편으로는 이미지 task의 경우에도 position 정보가 중요하기 때문에 위와 같은 inductive bias를 부여하였을 때 어떤 결과가 있을 지에 대해 궁금하기도 했습니다. 굉장히 인상깊은 방법론이었고, 특히 발표자 분의 발표자료가 굉장히 깔끔하고 본인의 의견을 구분하여 표기한 점은 본받고 싶은 요소입니다. 좋은 발표 감사합니다.
Hyeongwon Kang

2021-08-05 02:25

이번 세미나는 DeBERTa를 주제로 진행되었습니다. DeBERTa는 Disentangled Attention Mechanism과 Enhanced Mask Decoder를 활용하여 기존 방법론인 BERT와 RoBERTa의 성능을 향상시켰습니다. Disentangled Attention Mechanism 기법은 각 단어의 attention weight를 content vector와 position vector의 조합으로 표현하여 서로 뒤얽혀 있던 특징 요소들을 독립적으로 풀어서 표현하고자 하였습니다. 이렇게 데이터의 다양성을 설명하는 latent 요소들을 분리하여 표현함으로써 interpretability를 노높이고자 하였습니다. Enhanced Mask Decoder는 마지막 𝑛 개의 Transformer Block에 대해서,이전 layer의 output에 Absolute Position Embedding을 더하여 BERT 처럼 Masked Token Prediction을 진행하고자 하였습니다. 이를 통해서 local context 정보만을 이용하는 것이 아니라 global context 정보도 이용하고자 하였습니다. 본 논문에서 가장 novelty가 되는 부분이 Disentangled Attention 부분인데 사실 content to position attention과 position to content attention의 차이가 크게 와닿지는 않았습니다. 발표자에 의하면 본 논문에서도 자세하게 언급이 되어 있지 않았다고 하였는데 그 부분은 굉장히 아쉬웠습니다. 하지만 발표자분께서 개인적인 생각으로 잘 해석해주셔서 그 생각이 정확하게 저자가 말하고자 했던 바인지는 모르겠지만 어느정도 의도를 이해할 수 있었던 것 같습니다. 좋은 발표 감사합니다.
Hyungseok Kim

2021-08-09 08:55

이번 세미나 시간에는 ICLR2021에서 소개된 DeBERT: Decoding Enhanced BERT with disentangled attention 논문을 주제로 다루어 보았습니다. 해당 논문에서는 기존 BERT기반의 모델에서 두가지 메커니즘을 통해서 성능을 개선하여 NLU와 NLG task에서 성능향상을 보여주었습니다. 성능향상을 위해서 논문에서는 Disentangled Attention Mechanism과 Enhanced Mask Decoder를 제안하였습니다. Disentangled Attention Mechanism는 말그대로 기존 attention 방식과 달리 서로 독립인 두 벡터 content vector 와 position vector의 조합으로 표현하여 하나의 content pair에 대한 attention weight는 content 정보 뿐만 아니라 relative position 정보까지 반영하고자 하였습니다. Enhanced Mask Decoder은 마지막 개의 Transformer Block에 대해서 이전 layer의 output에 Absolute Position Embedding을 더하여 해당 layer의 input으로 사용함으로써 Masked Token 예측 과정에서 문맥의 content 와 position 정보를 활용하도록 하였습니다. 발표자가 해당 세미나를 진행하면서 사소한 디테일한 부분까지 appendix로 준비한 점과 슬라이드자료에서 적적한 예시그림들로 인해서 쉽지 않은 논문임에도 불구하고 원활하게 이해 할 수 있었습니다. 좋은 발표를 진행해주신 발표자에게 감사의 인사 전합니다.

« [paper review] Do Transformers Really Perform Bad for Graph Representation?

[Paper Review] DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering »

목록보기

전체 518

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11516	관리자	2020.03.12	0	11516
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10161	관리자	2020.03.12	0	10161
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11241	관리자	2020.03.12	0	11241
515	[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (1) Hyeongwon Kang \| 2025.07.29 \| 추천 0 \| 조회 89	Hyeongwon Kang	2025.07.29	0	89
514	[Paper Review] Recent Research Trends in Video Anomaly Detection (2) Jaehyuk Heo \| 2025.07.27 \| 추천 0 \| 조회 95	Jaehyuk Heo	2025.07.27	0	95
513	[Paper Review] Introduction to PINN (Some basic concepts and research directions) (9) Hankyeol Kim \| 2025.07.18 \| 추천 0 \| 조회 169	Hankyeol Kim	2025.07.18	0	169
512	[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10) Sieon Park \| 2025.07.14 \| 추천 0 \| 조회 204	Sieon Park	2025.07.14	0	204
511	[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9) Subeen Cha \| 2025.07.10 \| 추천 0 \| 조회 180	Subeen Cha	2025.07.10	0	180
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 363	Jaewon Cheon	2025.06.27	0	363
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 414	Minjeong Ma	2025.06.07	0	414
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 38	Minjeong Ma	2025.06.02	0	38
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 38	Kiyoon Jeong	2025.06.02	0	38
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호