1. Topic
Adaptive Language Model Pretraining (DAPT, TAPT)
2. Overview
BERT로 대표되는 최신 Language Model은 많은 데이터를 사용하여 pretrain 후 풀고자 하는 task에 맞추어 fine-tuning을 진행합니다.
하지만 general domain 데이터로 학습된 이 모델이 구체적인 (혹은 특별한) 도메인을 갖는 task에서도 좋은 성능을 낼 수 있는지는 생각해보아야 합니다.
본 논문에서는 Domain-Adaptive Pretraining(DAPT)와 Task-Adaptive Pretraining(TAPT)를 설명하고,
각각이 특정 도메인에서 성능 향상에 어떻게 기여하는지를 실험적으로 검증합니다.
3. 발표자료 및 발표영상
[1] 발표자료 [
LINK]
[2] 발표영상 [
" target="_blank" rel="noopener">LINK]
4. 참고문헌
Don't Stop Pretraining: Adapt Language Models to Domains and Tasks (ACL 2020) [
LINK]
일반적으로 NLP Task 에서 pre training 에서 대용량의 데이터셋을 이용한다고는 하지만, 특정 도메인에서 사용하는 언어를 학습할 때는 다시 fine tuning 과정을 거치게 됩니다. 대표적으로 Bio bert 같은 경우는 의료 도메인의 언어를 학습시키면서 의료용 데이터에 최적화된 언어모델을 만들게 됩니다. 즉 데이터의 상이한 분포를 가진 데이터 셋이라면 pretrain 모델 만으로는 부족한것이 현실이라고 생각합니다. 최신 다른 논문의 자료를 함께 제시하면서 해당 내용을 증명해준 준비에 좀 더 직관적으로 이해할 수 있었습니다. 최근 대용량에서 더 대용량으로 넘어가는 nlp 의 특성상, 학습모델이 더 무거워진다면, domain specific 한 문제도 해결될 수 있다고 생각하지만, 과연 어느수준까지 학습이 될지도 궁금하며, 한계가 있다면 당연히 adpatation 의 방식은 필연적으로 더 중요해 질 것 같습니다.
확실하게 특정 문헌에서 언급된 사항은 아니지만, Language Model의 Pre-Training 과정은 Sequence 내의 다른 Token과의 상관관계를 반영하여 특정한 Token의 Embedding을 서로 다르게 분화해주는 역할을 포함하고 있습니다. 일반적으로 LM의 Fine-Tuning은 Pre-Training에 사용된 데이터와 상이한 분포를 갖는 데이터를 이용하므로, 해당 데이터에 대한 분화 능력은 필연적으로 떨어지게 됩니다. DAPT와 TAPT는 LM이 기존에 학습하지 못했던 데이터를 추가적으로 Pre-Training 함으로써 이러한 분화 능력을 향상시켜 주는 것이라 생각합니다. 상당히 많은 연구에서 사용되고 있는 유용한 방법인 만큼 상세히 공부하고 싶었는데, 이번에 발표를 진행해 주시어 큰 도움이 되었습니다. 좋은 발표 감사합니다.
금일 세미나에서 발표된 논문은 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks입니다. 본 논문은 pretrained model을 더 많은 task, domain에 대해서 학습하여 downstream task의 성능을 향상하기 위한 DAPT, TAPT 방법론을 제안합니다. DAPT는 도메인에 따른 데이터를 기반으로 추가 학습하는 것인데, 기존 RoBERTa 모델에 비해 downstream task에 대한 성능이 더 좋았습니다. 하지만, 연관성이 적은 domain data로 pretrain시킨 모델에 다른 domain에 대한 downstream task를 적용하였을 경우, 성능이 하락하였습니다. TAPT는 도메인 데이터보다는 적은 양, task-specific한 데이터로 학습을 더 시키는 것인데, 이를 통해서는 DAPT와 견줄 만한 성능을 보였습니다. 또한, DAPT와 TAPT를 함께 적용하였을 때, 가장 성능이 좋았습니다. 이에 추가적으로 더 많은 unlabeled data를 사용하여 성능을 높일 방법론으로 human curation과 automated data selection을 제안하였습니다. 당연히 양질의 데이터가 많을수록, 더 많은 정보를 담을 수 있는 큰 모델일수록 성능이 좋지만, 본 세미나를 통해 적은 데이터로 빠르게 학습시키며 좋은 성능을 내는 TAPT 모델에 대해 알 수 있게 되어 유익하였습니다. 좋은 발표 잘 들었습니다. 감사합니다.
오늘 세미나는 ACL 2020에 소개된 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 이라는 논문에 대해 발표해주셨습니다. 논문에 앞서 유쾌한 짤과 직관적인 예시를 통해 Domain과 Task에 대해 설명해주셔서 세미나를 이해하기 좋았습니다. 이번 논문은 특이하게도 수식이 없이 모든 가설에 대해 실험적으로 pretraining의 결과를 해석하는 것을 위주로 작성되어 있었습니다. 이번 논문의 주제는 Pretraining에 대한 내용이었습니다. Pretraining은 크게 Domain-Adapptive Pretraining (DAPT)와 Task-Adaptive Pretraining로 구분할 수 있습니다. 본 논문에서는 두 방법에 대해 4가지 도메인 데이터(News, Reviews, BioMedical, Computer Science)를 사용하여 실험하였습니다. 이번 논문 소개를 통해 Domain과 Task 측면 뿐만 아니라 Unlabeled 상황과 자원의 크기도 함께 고려하여 Language Model을 pretraining 하는 방법 중 좋은 결과를 얻을 수 있는 방법을 알게 되었습니다. 좋은 발표 감사합니다.
이번세미나에서는 pretraining에 대한 논문을 발표해 주셨습니다. 각 도메인에 대한 8개의 task에 대해서 high/low source 데이터를 포함하고 있습니다. 이전에 읽었던 논문을 비교해서 생각해봤을때 요새는 데이터 도메인/Task 1개가 아니라 기본적으로 여러개를 가지고 얼마나 일반화성능을 가지는 지 확인하는 것 같습니다. 그래서 D(omain)APT, T(ask)APT를 비교해서 잘 설명해주셨는데 Transfer learning에서 domain이 유사할 경우, 적은 데이터로 task learning을 위한 좋은 성능을 낼수 있다는 점이 인상 깊었습니다. 도메인에 대한 임베딩 벡터와 Task 임베딩 벡터와 유사한 candidates들을 뽑아서 추가로 학습하는 부분도 효과적으로 데이터를 fine-tuning할 수 있는 전략 같습니다. Pre-trainng에 대한 전반적인 흐름에 대해서 알 수 있는 좋은 발표였습니다. 감사합니다.
이번 세미나는 BERT를 이용하여 Transfer Learing을 적용할 때 성능을 향상시킬 수 있는 방법에 대한 내용을 담은 "Don't Stop Pre-training" 논문을 소개해 주셨습니다. 해당 논문의 핵심은 풀려고 하는 특정 Task 데이터를 이용하여 BERT 모델을 한번더 Pre-training한 후 Fine-tuning을 하는 것이 모델의 성능을 향상시킨다는 점입니다. 그 이유는 대량의 데이터로 학습된 BERT 모델은 일반화된 문장에 특화되어 있기 때문에 한가지 도메인에 특화된 Task 데이터에서 더 잘 작동하려면 특정 TASK와 관련된 Domain 데이터나 Task 데이터로 한번더 학습이 필요하기 때문입니다. 이 논문에서 가장 인상깊었던 점은 간단한 아이디어를 증명하기 위하여 많은 실험을 설계하고 수행했다는 점 입니다. 다양한 Ablation Study를 통해 합리적이고 설득력 있는 증거를 제시하였고, 그렇기 때문에 해당 논문이 `ACL 2020에 실리게 될 수 있었던 것 같습니다. 발표도 매우 흥미로웠고, 해당 방법론도 실전적으로 활용할 가능성이 매우 높기 때문에 도움이 많이 되었습니다. 감사합니다.
논문을 읽다보면 꽤나 자극적인 주제로 이목(어그로?)을 끄는 논문들이 존재하는데, 금일 다루어 본 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 역시 제목만으로 많은 궁금즘을 불러왔습니다. 더구나 준비한 발표자료에서 연구실 구성원이라면 관심을 끌 수 밖에 없는 재미있는 예시를 통해서 유쾌하게 해당 논문의 이야기를 잘 풀어주었습니다. 해당 논문에서는 다양한 task로 적용하고자 할때, 해당 Task 데이터를 이용하여 BERT 모델을 pre-training한 후 Fine-tuning을 함으로써 모델의 성능향상을 이끌수 있다는 것을 보여주었습니다. DAPT(domain adaptive pretraining)의 필요성을 4개의 각기 다른 도메인에서의 실험결과로 보여준 실험설계가 매우 인상적이였습니다. 다소 지루할 수도 있는 주제를 유쾌하게 세미나를 이끌어준 발표자에게 감사의 인사 전합니다.
본 세미나에서 발표한 논문은 특정 task를 잘 수행하기 위해서는 특정 task와 유사한 데이터를 통해 학습해야 한다는 어떻게보면 당연한 논리를 주장하였습니다. 하지만 이 당연한 논리를 증명하기 위해 수행한 실험들은 매우 감명 깊었습니다. 앞으로의 실험 설계에 있어 도움이 될 수 있는 논문과 세미나여서 유익한 시간이었습니다. 추가로 Transfer learning에 있어서 도메인이 얼만큼 중요하게 작용하는지 다시 한 번 알 수 있었습니다. 본 논문의 주장과는 다르게 앞으로 유사하지 않은 도메인에 대해서도 transfer learning의 효과를 충분히 받을 수 있는 그런 기술들이 개발된다면 매우 흥미로울 것 같다는 생각을 하였습니다.
최근에 가장 중요하면서 핫한 논문이라고 해도 과언이 아닐 정도로 Don't Stop Pretraining: Adapt Language Models to Domains and Tasks은 중요한 논문이라고 생각합니다. 우리가 원하는 TASK에서 좋은 성능을 달성하기위해서는 TASK에 맞게 재 학습을 해야한다는 논리는 너무나도 합리적이라 생각합니다. 이 논문이 너무 흥미로워 여러번 읽게 되었는데, 제가 개인연구 성능을 높이기위해 했던 시도들을 실험적으로 증명해준 논문이라 반가웠습니다. 다만 요즘 드는 생각은, TASK Adapt가 결국엔 해당 TASK로 모델을 overfitting 시키는것은 아닐까 고민하고있습니다. 이미 일반화된 모델을 내 TASK로 오버피팅 시키면 좋은 성능이 보장되지만, 비슷하지만 다른 TASK에 순차적으로 모델을 적용시켜본다면 Adapted model이 어느정도의 효과를 가지는지 판별할 수 있는 재미있는 연구가 될 수 있지 않을까 생각해봅니다.
본 세미나는 NLP 분야에서 현재 너무나도 당연하고, 이상할 것이 없다고 느껴지는 Pretraining에 대한 고찰에 대한 내용이었습니다. 즉, 과연 현재 진행하고 있는 Pretraining 방식이 최선일까 라는 의문을 해결하기 위하여 Domain마다의, 그리고 Task마다의 Pretraining을 추가하였으며, 이 때 기존 RoBERTa에 다른 도메인의 추가 데이터를 Pretrain하는 방식과, 가장 단어가 겹치지 않는 Model-Domain 간의 Pretraining도 진행하는 여러 Ablation Study를 보여주었습니다. TAPT에 대해서는 각 도메인 내에 다른 Task에 맞는 Pretrain을 실시하여 전체적으로 봤을 때, 많은 연구자들이 상상은 해봤지만 직접 실험해보지 않았던 부분을 구체적인 실험으로 나타낸 의의, 그리고 Pretraining > Fine-tuning과 같이 보편적인 절차 대신 새로운 접근 방식을 보여줌에 의의가 크다고 생각합니다. Fine-tuning처럼 간단한 구현으로 나타나있지는 않지만 코드가 공개 되어 있으므로 사용해볼 만한 가치가 있다고 생각하며, 최신 논문에 대하여 빠르게 검색하여 읽어보는 발표자의 태도를 배우고자 합니다. 좋은 발표 감사드립니다.
이번 세미나는 “Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks”에 대해 진행되었습니다. Language Model에서 주류가 되고 있는 Pre-training모델은 특정 domain이 아닌, general한 정보를 담는 위키피디아 등 general corpus 대상으로 학습되게 됩니다. 이러한 pre-trained Language Model이 과연 특정한 domain 혹은 task에 국한된 문제를 해결한다고 할 때에도 과연 좋은 성능을 낼 수 있는 가는 생각해볼 만한 문제입니다. 본 연구, 발표를 통해 이러한 점에 대해 좋은 시사점을 얻을 수 있었습니다. 결론적으로, 본 연구는 끊임없이 adaptive pre-training하는 것이 성능 향상에 효과가 있다는 점을 보여줍니다. 본 논문은 이를 밝히기 위해 domain 기반 데이터를 추가로 학습시키는 DAPT, 특정 task 데이터를 추가 학습시키는 TAPT를 통해 adaptive pretraining의 효과를 각각 보여줍니다. 그리고 이 과정은 다양한 데이터, task를 통해 많은 실험을 통해 증명됩니다. 막연히 pre-trained 모델을 모든 task, domain에 가져다 사용하는 것이 마치 당연한 일인 것처럼 생각하곤 했습니다. 하지만, 이러한 점에 조금은 ‘당연’하지만, 합리적인 의문을 갖고 이렇게 실험으로 증명해내는 것은 언뜻 ‘당연’해 보이지만, 어렵고 의미있는 것이라고 생각합니다. 좋은 발표 감사드립니다.
2019년 ICCV에서 발표된 Kaiming He의 Rethinking ImageNet Pre-training 이후에 이런류의 이름을 가진 여러 논문들이 등장하고 있으며 대게 Rethinking ImageNet Pre-training에서 주장한 것과는 다르게 그래도 pretraining을 해야한다는 주장을 하고 있습니다. 본 세미나에서 소개한 논문도 NLP domain에서 pretraining을 하는 것이 좋다는 것을 주장하고 있습니다. 구체적으로 TAPT가 DAPT에 비해 적은 데이터를 사용하지만 높은 성능을 보임을 실험을 통해 보이고 있습니다. 또한 도메인이 같더라도 task가 다른 경우 같은 데이터로 TAPT를 진행하는 것이 성능 향상에 도움이 되지 않는다는 것도 보이고 있습니다. 사실 생각해보면 이는 매우 당연할 수 있는 흐름이라고 생각이 되지만 기존에 이러한 finding이 없었다는 점과 실험의 흐름이 충분히 납득가능하기에 좋은 학회에 게재된 이유가 아닐까 생각합니다. 결국 pretraining을 하자는 논문 제목을 가지고 있지만 무조건 큰 데이터를 사용하는 것이 아니라 적은 데이터로 효과적으로 pretraining을 진행하는 연구 분야의 길을 넓혀준 논문 이라는 생각이 듭니다. TAPT만 사용하여 TAPT와 DAPT를 함께 사용한 성능을 이기는 날이 곧 오지 않을까 기대됩니다.
이번 세미나는 "Don't Stop Pre-training" 논문을 소개해주셨는데, 간단하게 pre-trained LM을 task에 적용할 때 기존 일반적인 내용에 대해 pre-training을 하는 것보다 task에 대해 다시 pre-training을 수행하는 것의 이점을 소개하고 있습니다. 사실 일반화/특수화 관점에서 이러한 주장은 당연할 수 있으나 대중들이 생각하기만 하는 것을 직접 실험을 통해 증명하고 보여주는 것은 전혀 다른 문제이기 때문에 좋은 논문이라고 생각했습니다. 다만 TAPT를 통해 성능을 개선하는 문제를 두고, 그렇다면 task-agnostic하게 범용적으로 높은 성능을 내기 위한 진정한 pre-training은 어떻게 이루어질 수 있을까에 대해 많은 질문을 던져볼 수 있었습니다. 진정한 의미의 딥러닝, 인공지능은 그러한 pre-training이 가능할 때 실현될 수 있지 않을까 생각합니다. 좋은 발표 감사합니다.
이번 세미나는 downstream task의 성능을 향상하기 위해 DAPT, TAPT 방법론을 제안한 Don’t Stop Pretraining이라는 논문에 대해서 발표해주셨습니다.
여러 Task에 적용할 수 있는 Domain에 특화된 모델을 만들기 위해 특정 Domain 관련 많은 데이터를 이용하여 학습하는 DAPT 방법론과 특정 Task에 특화된 모델을 만들기 위하여 상대적으로 적은 데이터를 이용하는 TAPT 방법론에 대해 설명해주셨습니다. Pre-trained된 모델을 가지고 fine-tuning을 할 생각만 하였지 한가지 Domain에 특화된 Task 데이터에서 더 좋은 성능을 얻기위해 Domain 데이터나 Task 데이터로 한번 더 Pre-training을 진행하는 것에 대해서 생각해보지 못했었는데 이번 세미나를 통해 생각의 폭을 넓게 가져야겠다고 느꼈습니다. 좋은 발표 감사합니다.
오늘 세미나는 언어 모델의 pretraining에 대한 내용으로 진행되었습니다 Domain-adaptive pretraining 같은 경우, 풀고자 하는 task와 관련 높은 도메인의 데이터로 pretraining을 추가 진행하였을 때 성능의 향상이 있었습니다. 이를 단지 더 많은 데이터로 pretraining함으로써 성능을 향상시켰다고 할 수 없는 것이, 관련 없는 domain의 데이터로 pretraining할 경우에는 오히려 성능이 감소하였습니다. Task-adaptive pretraining의 경우, DAPT보다 상대적으로 size가 작지만 task에 더 직접적으로 관련 있는 data set으로 pretraining을 진행합니다. 그 결과 DAPT와 비슷하게 성능이 좋았고, DAPT, TAPT를 모두 적용하였을 때 성능 향상이 가장 컸습니다. 실험을 통해 증명하며 내용을 전개하는 논문 형식이 신선했습니다. 좋은 발표 감사합니다.
금일 세미나는 일반적인 도메인에서의 데이터로 학습된 모델이 specific domain에서도 높은 성능을 보이는지에 대해 탐구해본 논문리뷰로 진행되었습니다. 사전학습은 크게 domain adapative pretraining(DAPT)와 task adaptive pretraining(TAPT)로 나누어서 볼 수 있습니다. 본 논문에서 굉장히 많은 실험을 통해 저자들의 가설을 입증하는 것을 확인할 수 있습니다. 모든 상황에서 DAPT, TAPT를 적용하는 것이 성능을 향상시키고, 2가지 사전학습 방법을 모두 활용하였을 때 성능이 가장 좋은 것을 발견할 수 있었습니다. 또한, 비슷한 도메인에서는 transfer learning은 성능 향상에 기여하지만, 같은 도메인 내 task 간 transfer learning은 성능이 좋지 못함을 알 수 있었습니다. 유익한 발표 감사합니다.
이번 세미나에서 발표된 논문은 입니다. 정규 수업시간에서도 교수님께서 언급하셨던 논문인만큼 더 흥미를 갖고 집중해서 들을 수 있었습니다. 본격적인 본문 내용을 시작하기에 앞서 앞에 들어주신 예시가 너무 좋았는데요. 확실히 주어진 QA를 일반 언어모델에 넣었을 때보다 TAPT 또는 DAPT에 넣었을때 더 좋은 성능을 갖추게 될 것이라는 것을 직관적으로 잘 알 수 있었습니다.
본 논문은 앞에서 언급했던 DAPT, TAPT 방법론을 제안하는데 이는 pretrained model을 더 많은 task, domain에 대해서 학습하여 downstream task의 성능을 향상하기 위한 방법입니다. DAPT(Domain Adaptive PreTraining)는 도메인에 따른 데이터를 기반으로 추가 학습하는 것인데, 기존 RoBERTa 모델에 비해 downstream task에 대한 성능이 더 좋아졌고, 오히려 연관성이 적은 domain data로 pretrain시킨 모델에 다른 domain에 대한 downstream task를 적용하였을 경우 성능이 하락하는 것을 확인할 수 있었습니다. 다음으로, TAPT(Task Adaptive PreTraining)는 도메인 데이터보다는 적은 양, task-specific한 데이터로 학습을 더 시키는 것인데, 이를 통해서는 DAPT와 견줄 만한 성능을 보였습니다. DAPT는 상대적으로 많은 데이터(large corpora of domain-specific text)를, TAPT는 상대적으로 적은 데이터(available unlabeld data associated with given task)를 input으로 받게 됩니다.
또한, DAPT와 TAPT를 함께 적용하였을 때, 가장 성능이 좋은 것을 experiment를 통해 확인할 수 있었는데, 이에 본 논문에서는 추가적으로 더 많은 unlabeled data를 사용하여 성능을 높일 방법론으로 human curation과 automated data selection을 제안하였습니다. 이전까지는 단순히 더 많은 데이터를 가지고 학습한 모델이 성능이 가장 좋을거라고 막연히 생각했지만, 본 세미나를 통해 Task와 Domain에 맞는 데이터로 다시 한번 pretraining을 해주면 모델 성능이 좋아질 수 있다는 것을 알게 되었습니다. 좋은 발표 잘 들었습니다. 감사합니다.
금일 세미나는 "Don't Stop Pretraining: Adapt Language Models to Domains and Tasks"라는 주제로 진행되었습니다. 본 발표에서는 Domain-Adaptive Pretraining(DAPT)와 Task-Adaptive Pretraining(TAPT)가 소개되었고, 각각이 특정 도메인에서 성능 향상에 어떻게 기여하는지를 실험적으로 검증한 결과에 대해 들을 수 있었습니다. 제목이 인상적이여서 관심을 가지고 발표를 청취하였는데 최신 Language Model은 많은 데이터를 사용하여 pretrain 후 풀고자 하는 task에 맞추어 fine-tuning을 진행하는데 general domain 데이터로 학습된 이 모델이 구체적인 도메인을 갖는 task에서도 좋은 성능을 낼 수 있는지는 생각해볼 수 있는 시간이라 흥미로웠습니다. 특히 본 발표에서 소개된 실험 결과에서 pretraining이 좋은 결과를 도출하는 것을 보며 pretraining을 잘 활용하지 않는 이상치 탐지 분야에서도 이를 활용하여 모델의 성능을 향상시킬 수 있는 방법에 대해 고안해보면 좋겠다는 생각이 들었습니다. 좋은 발표 감사합니다.
본 세미나에서는 Don't Stop Pretraining: Adapt Language Models to Domains and Tasks논문을 소개해주셨습니다. 최근 개인적으로 작성했던 논문이 해당 논문을 reference로 많이 사용하였기에 재미있게 들을 수 있었습니다. TAPT 방법은 매우 다양하게 사용될 여지가 있다고 생각합니다. 하지만 개인적으로 생각하기에 이 방법 만으로는 novelty가 뛰어나지 않고 어느정도 한계가 있는 방법론이라고 생각합니다. 이를 극복하기 위한 다양한 방법을 찾아내는 것이 중요할 것 같습니다. 퀄리티 높은 발표를 진행해주셔서 감사합니다.
이번 세미나는 DAPT와 TAPT에 대한 내용이었습니다. 이는 넓은 분야의 대용량 데이터로 pretraining한 모델을 finetuning을 하면 특정 task또는 특정 분야에 맞춰질 것이라고 가정하고 사용해야 하는 기존의 한계점에서 벗어나, 도메인, 그리고 task에 더욱 맞출 수 있는 방법론들입니다. 우선 4개의 도메인을 선정하여 downstream task에 대한 성능을 측정하고, 마찬가지로 task에 대한 실험도 8개의 실험을 하여 각각의 task와 domain에 맞는 데이터로 pretraining을 하는 것에 대한 해석을 알 수 있었습니다. 발표 도중 더 많은 데이터를 사용하는데 당연히 성능이 향상되는 것이 아닌가라는 의문을 갖고 있었는데, 뒤에 이에 대한 설명 및 실험 결과를 보여주셔서 이 의문점에 납득할 수 있었습니다. 또한 실험 결과를 깊게 해석하는 과정을 또한 발표해주셔서 개인적으로 많은 도움이 되었습니다. 좋은 발표 감사합니다.