[2019.10.08 - 이정훈 석사과정] To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks

Paper Review
작성자
관리자
작성일
2020-03-12 11:21
조회
6376
1. Topic

Sequential Transfer Learning in NLP

2. Overview

Transfer Learning 중에서도 Sequential Transfer Learning은 label이 존재하지 않는 다량의 데이터로 비지도학습 방식의 모델을 학습(Pretrain)한 후 label이 존재하는 소량의 데이터에 대해 지도학습 방식으로 모델을 이어서 학습(adaptation)하는 일련의 과정을 의미합니다. 일반적으로 자연어처리에서의 Pretrain은 2014년 Word2Vec(Mikolov et al.)의 등장 이후로 단어에 대한 학습을 주로 일컫는 말이었습니다. 대표적으로 Yoon kim의 2014년 논문인 Convolutional Neural Networks for Sentence Classification에서 다량의 unlabeled data에 대하여 Word2Vec으로 학습을 한 후 학습된 단어를 이용해 labeled data에 대한 classification을 수행했을 때 성능이 더욱 향상되었다는 연구가 있습니다. 그 후 skip-thought vector(Kiros et al.)에서 문장 단위의 pretrain이 제안되었고 ELMo(Peters et al.)와 BERT(Devlin et al.) 이후 현재까지 문맥에 맞게 단어(문장)에 대한 pretrain을 하는 방식이 주가 되고 있습니다.

본 논문에서는 이러한 pretrain이 완료된 후 label이 존재하는 데이터(downstream task)에 대해 adaptation하는 과정에 집중합니다. 크게 pretrain된 단어(문장) embedding을 이용해 feature-based approach를 진행하는 feature extraction과 embedding의 weight를 조절하며 추가 학습을 진행하는 fine-tuning의 두 가지로 adaptation을 나눠 진행하는데 이 과정을 크게 ELMo와 BERT 모델 두 가지에 대하여 실험을 진행합니다.  실험은 NER과 단일 문장 분류, 문장 유사도 측정의 세 가지 downstream task에 대해 진행합니다. 결과적으로 ELMO는 feature extraction 방식이, BERT는 fine-tuning 방식이 효과를 내는 것을 확인했습니다. 저자들은 feature extraction과 fine-tuning 모두 pretrain task와 downstream task가 유사해야 성능이 잘 나오며 특히 문장 유사도가 중요한 downstream task에 대해서는 ELMo의 pretrain 방식이 이와 달라 효과가 잘 나오지 않으며, BERT에서는 문장 쌍에 대한 유사도를 pretrain 과정에서 학습하기 때문에 유사도 측정에 유리하다고 말합니다.

3. 발표자료 및 발표영상

[1] 다운로드

[2] 발표영상


4. 참고문헌

[1] Matthew Peters, Sebastian Ruder and Noah A. Smith. To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks. arXiv preprint arXiv:1903.05987, 2019.

전체 0

전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15352
관리자 2020.03.12 0 15352
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14095
관리자 2020.03.12 0 14095
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15051
관리자 2020.03.12 0 15051
553
New [Paper Review] Why CLIP fails at Dense Prediction Task? (1)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 34
Jinwoo Jang 2026.04.06 0 34
552
[Paper Review] Dynamic Large Concept Models (8)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 116
Jaeyong Ko 2026.03.30 0 116
551
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 378
Sunmin Kim 2026.03.10 0 378
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 317
Sunghun Lim 2026.03.01 0 317
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 240
Suyeon Shin 2026.02.25 0 240
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 486
Jaehyuk Heo 2026.02.12 0 486
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 467
Hyeongwon Kang 2026.02.10 0 467
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 556
Hankyeol Kim 2026.02.03 0 556
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park | 2026.01.29 | 추천 0 | 조회 576
Sieon Park 2026.01.29 0 576
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 385
Subeen Cha 2026.01.28 0 385

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호