Seminar

BOARD

[Paper Review] FreeLB: Enhanced Adversarial Training for Natural Language Understanding

작성자

Myeongsup Kim

작성일

2021-02-19 18:13

조회

2565

1. Topic

FreeLB: Enhanced Adversarial Training for Natural Language Understanding

2. Overview

BERT의 성공 이후로, NLP 분야에서는 Transformer 구조를 기반으로 한 대용량 Language Model에 관한 연구들이 다수 수행되었습니다. 대용량 Language Model에 관한 연구는 크게 두 가지 흐름으로 정리할 수 있는데, Model의 Parameter를 증가시키고, 더 많은 데이터를 사용하여 높은 성능을 내는 흐름이 존재하며, 대표적인 모델로 11B개의 Parameter를 보유한 T5와 175B개의 Parameter를 보유한 GPT-3가 있습니다. 이러한 Model들이 좋은 성능을 보이고 있으나, 모델의 Parameter가 너무 많아 실제 운용하기에는 어려움이 존재하게 되어, 적은 수의 Parameter를 가지고도 Language Model이 높은 성능을 낼 수 있도록 하는 연구 또한 수행되고 있습니다. 이번 세미나에서 소개할 FreeLB는 후자의 연구에 해당합니다.

FreeLB는 Vision 분야에서 널리 쓰이고 있는 Adversarial Training을 사용하여 Language Model의 성능을 개선합니다. Vision 분야에서 Adversarial Training을 수행할 경우 일반적으로 Generalization Performance가 감소하는 것으로 알려진 것과 달리, NLP분야의 경우 Adversarial Training을 수행할 경우 Generalization Performance가 증가하는 경향이 발견되었습니다. 기존에 존재하는 다수의 연구들이 Token단위에서 조정을 수행한 것과 달리, FreeLB는 Language Model의 Embedding에 대해 Adversarial Training을 수행하는 방식으로 Generalization Performance를 향상시킵니다.

Projected Gradient Descent의 방식을 기반으로, Embedding Space 내에서 특정한 크기의 Norm으로 제한된 영역을 설정한 뒤에, 해당 영역 안에서 Model의 Loss를 증가시키는 방향으로 Perturbation을 학습하고, Loss를 증가시키는 Perturbation이 더해진 Embedding을 Model이 맞힐 수 있도록, Model의 Loss를 감소시키는 방향으로 Model Parameter를 학습하는 적대적 방식의 학습을 사용합니다. 이 과정에서, 서로 다른 Batch에 대한 Gradient를 누적하는 방식으로 학습을 수행합니다.

FreeLB는 발표 당시 GLUE Benchmark에서 State-of-the-art의 성능을 기록하였으며, 보다 강건한 Embedding을 형성하는데 도움을 줄 수 있습니다.

3. 발표자료 및 발표영상

발표 자료 (첨부파일)
발표 영상 (">Link)

4. 참고 문헌

Zhu et al., FreeLB: Enhanced Adversarial Training for Natural Language Understanding, ICLR, 2020 (Link)

전체 15

Jina Kim

2021-04-01 20:58

오늘 세미나는FreeLB: Enhanced Adversarial Training for Natural Language Understanding에 대한 내용으로 이루어졌습니다. 발표자께서 transformer가 강력한 이유는 context를 반영하여 서로 구분되게 embedding된 vector를 많이 얻었기 때문이라고 말씀하셨는데, 언어 모델이 정말 언어를 이해하는가에 대해 의구심을 가진 여러 연구들을 고려해봤을 때, 합당한 의견이라고 생각합니다. 이 외에도 최근 연구 동향을 두 갈래로 정리해주셔서 흐름을 파악하기에 매우 도움이 되었습니다. 오늘 소개해주신 FreeLB는 Adversarial training을 사용합니다. NLP에 Adversarial training을 사용하게 되면, generalization performance가 향상되는데, 그 이유는 adversarial example에 해당하는 단어가, vocab에 존재하지 않더라도, 문맥을 이용해 이와 유사한 embedding을 생성할 가능성이 있기 때문이라고 합니다. 문맥을 반영하여 같은 단어에 대해 여러 vector를 어떻게 학습하냐에 따라서 언어 모델의 성능이 개선될 수 있는 것 같습니다. 좋은 발표 감사합니다.
junghoon lee

2021-04-29 15:51

이번 세미나는 NLP에 Adversarial Training을 적용한 FreeLB라는 방법론에 대해 설명해주셨습니다. Vision쪽에서 많이 연구되던 Adversarial 방법론을 NLP에 접목한 것이 흥미로웠습니다. 해당 논문에서는 Adversarial training을 사용함으로써 generalization performance를 향상시켰습니다. 구체적으로는 embedding 공간 상에 perturbation을 적용하였습니다. 언어라는 도메인의 특징 상 이미지와 같이 continuous space에서 데이터를 조작하는 것이 어렵습니다. 본 방법론은 매니폴드상에서 데이터를 조작하는 방법을 선택했습니다. 굉장히 흥미로운 접근방법이었습니다. 좋은 논문을 소개해주셔서 감사합니다.
Jungho Lee

2021-08-16 23:31

최근 GPT3 T5 등 대용량의 모델들이 좋은 성능을 보이나, 실제로 사용하기가 너무 힘듭니다. 이런 부분에서 경량화작업 논문들이 많이 나오고 있습니다. freeLB 는 이런관점에서 Adversarial Training 을 통해서 문제점을 해결합니다. 일반적으로 일반화 성능이 감소하는 AdvT 에서 NLP 에서는 일반화 성능 또한 좋아진다고 주장하는데, 이는 임베딩 차원에서의 AdvT 을 진행하기 때문에 생길 수 있는 Augmentation 이다 라고 생각합니다. 사실 제가 이 세미나 들으면서, 이전에 임베딩단위에서 Adversarial Training 하는것이 무슨 의미가 다를까 고민했었는데, 발표자 께서도 비슷한 생각을 가지셨고, 저자들 또한 이미지와의 차별점을 알기쉽게 풀어주었습니다. 감사합니다.
Euisuk Chung

2021-06-27 14:10

금일 발표는 "FreeLB: Enhanced Adversarial Training for Natural Language Understanding"라는 주제로 진행되었습니다. BERT의 성공 이후로, NLP 분야에서는 Transformer 구조를 기반으로 한 대용량 Language Model에 관한 연구들이 다수 수행되었습니다. 대용량 Language Model에 관한 연구는 크게 두 가지 흐름으로 정리할 수 있는데, 그 중 첫 번째는 Model의 Parameter를 증가시키고, 더 많은 데이터를 사용하여 높은 성능을 내는 GPT-3와 같은 모델을 만들어 내는 것이 있습니다. 이러한 Model들이 좋은 성능을 보이고 있으나, 모델의 Parameter가 너무 많아 실제 운용하기에는 어려움이 존재하게 됩니다. 다른 흐름은 이번에 발표자 분께서 이야기한 FreeLB와 같이 적은 수의 Parameter를 가지고도 Language Model이 높은 성능을 낼 수 있도록 하는 연구가 수행되고 있습니다.

FreeLB는 Adversarial Training을 사용하여 Language Model의 성능을 개선합니다. Adversarial training은 대부분 이미지 분야에 대해서 적용이 된다고만 알고있던터라, 이번 세미나에서 NLP에도 적용될 수 있다는 것이 흥미로웠습니다. Vision에서 Adversarial Training을 수행할 경우 일반적으로 Generalization Performance가 감소하는 것으로 알려진 것과 달리, NLP분야의 경우 Adversarial Training을 수행할 경우 Generalization Performance가 증가하는 경향이 발견되었다고 소개해주셨는데요. 아직까지 Adversarial Example의 Generalization Performance에 대해 잘 알지 못해서 조금 어려웠지만 흥미로운 발표였습니다. 해당 키워드들로 추가적인 공부를 진행해보면서 궁금한 점들은 질문드리겠습니다. 감사합니다!
Yukyung Lee

2021-06-30 01:30

세미나는 FreeLB: Enhanced Adversarial Training for Natural Language Understanding를 주제로 진행되었습니다. Adversarial training은 vision에서 자주 등장하고, 사용되는 개념이지만 FreeLB는 이 방법을 NLP에 적용되어 일반화 성능을 높였습니다. NLP 연구중 Large LM에 대한 연구는 자본에 의해 결정되기 때문에 특정 연구집단만 허용가능하다는 문제가 있습니다. 따라서 최근엔 Augmentation에 대한 연구나 robust한 모델을 만들기 위한 다양한 방법론이 제안되고있고, FreeLB도 이 흐름에서 제안될 수 있는 개념이라 생각합니다. 박경찬 박사과정의 세미나를 통해 AT는 궁극적으로 DNN의 Robustness를 위한 방법론이라는 주장에 깊게 공감하게되었는데 FreeLB에서 해당 아이디어로 가설을 세우고 실험을 진행한 모습이 인상적이었습니다. 첫번째 연구는 당연히 모든 부분을 명확히 증명할 수 없다고 생각합니다. 따라서 추후 더 많은 연구들이 이 연구를 보완해줄것이라는 생각이 들었고 재미있는 아이디어라고 생각했습니다. 감사합니다.
Hyeyeon Kim

2021-08-03 02:33

이번 세미나는 NLP 분야에 adversarial training을 도입한 FreeLB라는 방법론에 대한 세미나였습니다. FreeLB를 통해 NLP task에서 generalization error를 감소시킬 수 있다는 장점이 있습니다. 또한 Projected Gradient Descent에 대해 설명해주셨는데 Embedding Space 내에서 특정한 크기의 Norm으로 제한된 영역을 설정한 뒤에, 해당 영역 안에서 Model의 Loss를 증가시키는 방향으로 Perturbation을 학습하고,그와 반대로 Loss를 증가시키는 Perturbation이 더해진 Embedding을 모델이 잘 예측할 수 있게끔 Model의 Loss를 감소시키는 원리를 설명해주셨습니다. 최근에 QA task 등 NLP 분야에 adversarial training이 많이 접목된 것을 볼 수 있었습니다. 이와 같이 generalization error가 감소하게 되는 효과가 있다면, 적대적인 학습이 많이 유용할 것이라는 생각이 들었습니다. 좋은 발표 감사합니다.
Hyungseok Kim

2021-02-22 16:45

금일 세미나에는 FreeLB: Enhanced Adversarial Training for Natural Language Understanding라는 논문을 주제로 다루어 보았습니다. 해당 세미나의 서두에는 최근 NLP에서의 연구동향을 발표자가 2개의 Track으로 나누어 정리를 해주었습니다. 모델의 크기를 키워 성능을 키우는 방향과 모델의 사이즈는 벌크업하지 않지만 이 가운데 smart하게 퍼포먼스를 향상시키는 방향으로 나누어서 생각해 볼 수 있었습니다. 전자에 해당하는 논문이 T5, GPT-3로 대표될 수 있으며, 후자의 경우는 SMART(ACL2020), PET 등 이 대표될 수 있을 것 같습니다. 실제 본 논문은 NLP 학습과정에서 FreeLB라 불리는 Adversarial Training방법론을 통해 기존 방법론 대비 invariant한 embedding space의 학습을 도모하였습니다. 이 과정에서의 Adversarial Training은 연구실 세미나에서도 여러 번 세미나시간에 소개되었던 내용이지만, 친절한 자료를 통해서 해당 논문에서 사용된 PGD의 variation인 FreeLB의 학습과정을 잘 전달해주었습니다. 세미나를 위해서 많은 내용을 준비한 것을 확인할 수 있었고, 논문에 대한 고민을 함께 공유할 수 있는 의미있는 시간이었다고 생각됩니다.
Seungwan Seo

2021-03-02 15:11

NLP에 adversarial training (AT)를 적용하는 FreeLB에 관한 논문이었습니다. 많은 vision 연구들에서 Adversarial Attack/Defense/Training을 DNN을 이해하기위한 중요한 수단으로 사용합니다. 그리고 제가 알기로는 본 논문은 NLP에 이러한 연구 방향을 접목시킨 최초의 논문입니다. 개인적으로도 흥미가 있어 읽어봤었는데, 세미나를 통해 만나게 되어 반가운 마음이 컸습니다. 논문의 골자는 AT를 진행한 결과 vision domain과는 다르게 NLP domain에서는 모델의 일반화 성능이 높아진다는 것 입니다. 사실 이러한 주장을 펼치기 위해 저자들에게 유리한 선행 연구들만 참조한 것 같은 느낌이 들지만 vision domain에서 AT를 진행하는 경우에 따라 일반화 성능이 떨어지는 경우가 많기 때문에 별 문제 없이 논문으로 게재된 것 같습니다. 그리고 일반화 성능이 올라가는 이유는 input단에서 AT를 적용한 것이 아니라, 다시 말해 gradient를 이산적인 인풋까지 흘려보낸 것이 아니라, 연속적인 embedding space에 적용했기 때문이라고 생각합니다. 결국 AT가 data augmentation과 비슷한 작동을 하여 좋은 성능이 있었지 않나 싶습니다.
Donghwa Kim

2021-03-03 15:18

이번세미나에서는 텍스트기반의 adversarial training을 하는 FreeLB: Enhanced Adversarial Training for Natural Language Understanding를 발표해주셨습니다. 근본적으로 텍스트와 이미지는 굉장히 다른 특성들이 존재합니다. 예를들어, 이미지는 데이터 변수들이 서로 상호작용이 되며, 텍스트는 그렇지 않습니다. 우리가 일반적으로 이미지에 gan이 잘 된다는 점은 이러한 이미지 데이터 특성들을 잘 고려한다고 생각합니다. 하지만 sequence 정보를 반영하는 (텍스트)데이터는 비전에서 우수한 성능을 가지는 방법론들이 잘 먹히지 않을때가 있습니다. 개인적으로 text에 Gan를 사용하는것에 대해서 비판적이고 부정적인 시각을 가지고 있으며 좀더 신뢰성있고 논리적으로 설득 시킬 필요가 있다고 생각됩니다. 좋은 발표 감사합니다.
Hoonsang Yoon

2021-03-07 17:42

현재 언어 모델의 발전 양상은 크게 두 갈래로 나타나며, 하나는 깊고 큰 모델을 새롭게 고안하여 많은 데이터로 훈련하는 것이고(T5 / GPT-3), 다른 하나는 새로운 구조를 만드는 대신 다른 방안으로 성능 개선을 꾀하는 것입니다 (SMART / PET). 본 세미나에서 발표한 FreeLB는 후자에 속하며 Adversarial Training을 활용하여 언어 모델 내의 단어들의 Embedding Space를 더욱 더 Invariant하게 만드는 것이 목적입니다 (FreeLB는 Free Large Batch의 준말로서, Adversarial로 얻을 수 있는 추가적인 Embedding을 의미하는 것 같습니다). 따라서 Perturbation이 적용된 Embedding을 통해 진행된 Adversarial Training을 수행할 때, Vision Task에서는 Robustness가 상승하면서 일반화 성능이 감소하지만, 언어 모델에서는 두 요소가 모두 상승하게 됩니다. 이에 대하여 구체적인 장점은 Token이 Vocab에 존재하지 않더라도 Embedding을 생성할 수 있게 하며 '좋다', '싫다' 이외에 문맥을 이용하여 유사한 Embedding인 '조금 좋다'의 좋다를 Space에 나타낼 수 있게 할 수 있습니다. 발표에서는 나타나지 않았지만 논문 Conclusion에 기본적으로 AT는 SGD를 사용했을 때에 비하여 Overhead가 발생할 수 있다하여 Future Work로 제안하고 있기에 발표자께서 연구 주제로 활용할 수 있지 않을까 싶습니다. LM의 새로운 관점을 소개해주셔서 감사합니다.
Jounghee Kim

2021-03-09 16:04

오늘 세미나는 Adversial Training을 언어모델에 적용한 FreeLB라는 모델을 소개해 주셨습니다. 기존 Adversarial Training 방법론들이 데이터의 입력, NLP에서는 Token에 적용하는 것과는 달리 해당 방법론은 Embedding에 Perturbation을 추가하여 Adversarial Training을 수행하였습니다. 그리고 Embedding Space에서 위치의 큰 변화 없이 Loss를 최대화하는 Perturbation을 생성하기 위해 PGD 구조를 변형한 방법을 제안하였습니다. 이 방법론은 Batch 단위로 K번의 Perturbation Update 동안 Weight에 대한 Gradient를 누적한 뒤, 평균하여 Update를 수행하는 것입니다. 이를 통하여 별도의 파라메터 증가 없이 성능을 향상시켰습니다. 개인적으로 NLP에 Adversial Training 방법론을 적용한 것을 처음 보았습니다. 게다가 이런 방법론이 일반화 성능을 향상 시킨다는 점에서 매우 흥미롭다고 생각합니다. 좋은 발표 감사합니다.
Yunseung Lee

2021-03-12 15:43

금일 세미나는 NLP에서 adversarial training 기법을 적용한 FreeLB에 대한 모델의 소개로 진행되었습니다. 언어모델의 성능을 향상시키기 위해서는 많은 데이터로 깊은 모델을 학습시키거나 모델 크기는 유지하되 adversarial training 과 같은 기법을 추가하는 방법이 있습니다. 이미지에서는 데이터 자체에 perturbation을 주어 adversarial 학습을 진행하였으나, FreeLB는 임베딩 공간에 perturbation을 적용합니다. 이를 통해 보다 invariance 임베딩 공간을 만들어내도록 학습이 진행됩니다. Adversarial training을 텍스트에도 적용하는 방법에 대해 알게 되어 유익한 시간이었습니다. 또한 vision 분야에서 이 학습기법을 사용했을 때 일반화 성능이 감소하는 것과 달리, 이 기법을 적용하였을 때 모델의 일반화 성능이 오히려 향상되는 점도 인상 깊었습니다. 좋은 발표 감사합니다.
Kyoosung So

2021-03-12 21:07

오늘 세미나는 NLP task에 대해 adversarial training을 적용한 Free LB 모델에 대해 소개해주셨습니다. Adversarial training은 대부분 이미지 분야에 대해서 적용이 된다고 들었던 내용이라, 이번 세미나에서 NLP에 적용되는 것이 흥미로웠습니다. 우선 가장 기본적인 출발은 text augmentation을 통해 일반화 성능을 확보하는 것이 일반적인데 이것도 결국 embedding space에서 일반화 성능을 높이는 것이기 때문에, 데이터를 건드리는 것이 아니라 embedded vector에 대한 manipulation을 통해 일반화 성능을 어떻게 높일 수 있을지에 대한 고민입니다. 이를 위해 저자들은 embedding space에 대해 perturbation을 수행하는데, 이 때 vision task와 다르게 일반화 성능이 향상된다고 합니다. 이에 대해서는 아무래도 embedding space 상에서 각 latent vector들이 특정한 constraint 안에서 adversarial training이 적용되었기 때문이라고 생각합니다. 모든 부분을 다 이해한 것은 아니기 때문에, 발표자료 올려주시면 한번 더 보고 더욱 깊게 이해하고 싶은 논문입니다. 좋은 발표 감사합니다.
Takyoung Kim

2021-03-15 16:44

작년에 언어 도메인에서의 continuous space에서 interpolation이 적용될 수 있는가에 대한 토론을 했던 것이 기억이 나는데, 이후 쭉 관심을 유지하면서 논문을 소개해주시는 모습이 인상깊었습니다. 소개해주시는 논문에서는 임베딩 공간에 perturbation을 적용하는 형태로 논의를 전개하는데 저도 마침 자연어 임베딩 공간에 self distillation을 적용하는 논문을 읽고 있었어서 좋은 참고자료가 되었습니다. 결국 해당 방법론도 파라미터 증가 없이 성능을 높이는 representation을 찾는 목적이기 때문에 어느정도 흐름을 같이 한다고 생각합니다. 제 지식 범위 내에서는 개인연구로 논제를 던져 주신 내용이 어느정도 합리적인 흐름이라고 생각했고 관련하여 또 이야기를 할 수 있으면 좋겠습니다. 발표 잘 들었습니다.
Heejeong Choi

2021-03-22 18:21

금일 발표는 "FreeLB: Enhanced Adversarial Training for Natural Language Understanding"라는 주제로 진행되었습니다. 본 발표에서는 NLU에 adversarial training을 적용한 FreeLB가 소개되었습니다. 먼저 최근 다양한 분야에서 adversarial training이 적용되고 있는데 금일 발표에서 NLU에 해당 방법론이 적용된 것은 처음 접했기 때문에 흥미로웠습니다. 해당 방법론은 embedding 공간에 perturbation을 적용함으로써 data augmentation과 유사한 효과를 도출하여 NLU의 성능을 향상 시켰습니다. 본 발표를 청취하며 adversarial training의 효과를 알게 되었고 NLP와 유사한 특성을 보이는 정형 데이터에도 해당 부분이 효과가 있을 것으로 생각되어 이상치 탐지에도 adversarial training을 적용하면 좋을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.

« [Paper Review] ICNet for Real-Time Semantic Segmentation on High-Resolution Images

[Paper Review] OOD Detection Using an Ensemble of Self-Supervised Leave-out Classifiers »

목록보기

전체 556

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15575	관리자	2020.03.12	0	15575
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 14306	관리자	2020.03.12	0	14306
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15289	관리자	2020.03.12	0	15289
553	[Paper Review] Why CLIP fails at Dense Prediction Task? (3) Jinwoo Jang \| 2026.04.06 \| 추천 0 \| 조회 108	Jinwoo Jang	2026.04.06	0	108
552	[Paper Review] Dynamic Large Concept Models (8) Jaeyong Ko \| 2026.03.30 \| 추천 0 \| 조회 158	Jaeyong Ko	2026.03.30	0	158
551	[Paper Review] Programming Refusal with Conditional Activation Steering (15) Sunmin Kim \| 2026.03.10 \| 추천 0 \| 조회 434	Sunmin Kim	2026.03.10	0	434
550	[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9) Sunghun Lim \| 2026.03.01 \| 추천 0 \| 조회 346	Sunghun Lim	2026.03.01	0	346
549	[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9) Suyeon Shin \| 2026.02.25 \| 추천 0 \| 조회 256	Suyeon Shin	2026.02.25	0	256
548	[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10) Jaehyuk Heo \| 2026.02.12 \| 추천 0 \| 조회 514	Jaehyuk Heo	2026.02.12	0	514
547	[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9) Hyeongwon Kang \| 2026.02.10 \| 추천 0 \| 조회 513	Hyeongwon Kang	2026.02.10	0	513
546	[Paper Review] Introduction to Neural Operator (10) Hankyeol Kim \| 2026.02.03 \| 추천 0 \| 조회 616	Hankyeol Kim	2026.02.03	0	616
545	[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13) Sieon Park \| 2026.01.29 \| 추천 0 \| 조회 610	Sieon Park	2026.01.29	0	610
544	[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13) Subeen Cha \| 2026.01.28 \| 추천 0 \| 조회 404	Subeen Cha	2026.01.28	0	404

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호