Seminar

BOARD

[Paper Review] SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized O

작성자

Myeongsup Kim

작성일

2021-05-07 18:29

조회

2470

1. Topic

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2. Overview

최근 Language Model의 Parameter를 지속적으로 증가시키며, Model의 성능을 개선하는 연구들이 지속되고 있습니다. 대용량 Language Model에는 대표적으로 11B개의 Parameter를 보유한 T5(Text-to-text Transfer Transformer)와 GPT-3(Generative Pre-Trained Transformer)가 있습니다. 이들 대용량 Language Model은 분명 우수한 성능을 보이고 있지만, Model의 크기가 너무나도 크기 때문에 실제적으로 사용하기가 매우 어렵다는 단점이 존재합니다. 이에 Language Model의 크기를 유지하면서도 높은 성능을 낼 수 있도록 하는 연구들이 수행되고 있습니다. SMART는 크기를 유지하면서 높은 성능을 내고자 하는 연구에 해당합니다.

SMART는 Language Model이 대용량 Corpus를 사용한 Pre-Training을 위해 매우 많은 Parameter를 보유하고 있지만, Fine-Tuning을 수행할 때에는 데이터의 수가 많지 않기 때문에 너무나도 많은 Parameter로 인한 Overfitting의 위험성을 언급합니다. 이를 방지하기 위해 Smoothness-Inducing Adversarial Regularization과 Bregman Proximal Point Optimization을 도입합니다.

Smoothness-Inducing Adversarial Regularization은 Input Embedding에 Noise를 부과했을 때, Output의 분포가 Noise를 부과하지 않은 Output의 분포와 유사하도록 제어합니다. 이를 통해 매우 많은 Parameter를 보유하고 있는 Model의 급진적인 Output 변화를 방지하여, Model의 Complexity를 제어합니다.

Bregman Proximal Point Optimization은 기존 Parameter를 이용하여 산출된 Output과 새롭게 Update될 Parameter를 이용하여 산출된 Output의 분포 차이를 줄이도록 제어합니다. 이를 통해 매우 많은 Parameter를 보유하고 있는 Model의 급진적인 Update를 방지합니다. 저자들은 학습 속도를 위해 Momentum을 도입한 Momentum Bregman Proximal Point Optimization을 사용합니다.

SMART는 Single Model을 기준으로 3개의 GLUE Subtask에서 약 30배의 Parameter 수의 차이를 보이는 T5를 상회하는 성능을 기록하였고, MT-DNN과의 Ensemble을 통해 GLUE Benchmark 평균 성능에서 T5를 상회하는 성능을 기록하고, State-of-the-art를 갱신하였습니다.

3. 발표자료 및 발표영상

발표 자료 (첨부파일)
발표 영상 (">Link)

4. 참고 문헌

(Paper) Jiang el al., SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization, 2020, ACL (Link)
(Conference Presentation Video) SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization, 2020, ACL (Link)

전체 21

junghoon lee

2021-07-11 19:29

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization라는 논문에 대한 발표를 진행해주셨습니다. 해당 논문은 fine-tuning 과정에서의 overfitting을 줄이기 위한 방법론을 제시하였습니다. 이를 위해 adversarial regularization loss를 이용한 smoothing 기법과 Bregman Proximal Point Optimization 기법을 제시하였습니다. 흥미로운 논문을 소개해주셔서 감사합니다.
Jungho Lee

2021-08-15 16:36

금일 세미나에서는 nlp 에서 대용량의 코퍼스를 기반으로 트랜스포머를 학습시키는 pretrained model 에 관한 내용입니다. 앞선 세미나에서도 pretrain, fine tuning 에 대한 이야기를 다루었었고, 둘의 상관관계를 좀 더 심층적으로 다룬 시간이였습니다. overfitting이 필연적으로 domain 이 다를때 일어 난다고 생각한다면, fine tuning 도 필연적으로 필요하다 생각합니다. fine tuning 시 overfitting이 또 일어나게 되는데, 이를 줄이기 위해서 adversarial regularization 을 이용하였고, 사실 adversarial example 을 통한 정규화는 예전부터 있었던 방식이고, 모델의 강건화에 직접적인 영향을 끼친다고 생각합니다. adversarial example을 만드는 과정이 상당히 오래 걸리기 때문에 효율적이다 라고 까진 말할 수 없지만, 모델의 정규화에는 큰 도움이 된다고 생각합니다. 이 외에도 다양한 파라메터에 대한 설명을 해주셨고, 발표자께서 설명을 자세히 해주셔셔 이해가 편했습니다.
Hyungseok Kim

2021-06-17 21:05

금일 세미나시간에는 다소 재미있는 타이틀인 SMART: Robust and Efficient Fine-Tuning for Pre-Trained Natural Language Models through Principled Regularized Optimization 논문을 주제로 다루어 보았습니다. 현재 주류를 이루는 NLP 연구의 대다수는 대용량의 코퍼스를 기반으로 트랜스포머 기반의 pre-training 모델을 차용하여 활용되고 있습니다. 이과정에서 pre-training이 수행된 모델은 이를 sub-task로 적용하는 과정에서 학습된 모델의 사이즈에 따라서 학습파라미터가 매우 크기 때문에 over-fitting으로 인한 성능저하가 발생하는 문제점이 존재합니다. 이러한 문제점은 특히 pre-training dataset에 비해 fine-tuning dataset이 현저히 작을 경우 더욱 심해질수 있습니다. 따라서 해당 연구에서는 fine-tuning시에 보다 강건하고 효율적으로 학습을 수행하기 위한 해결책을 제시하고 있습니다. 이러한 해결책을 크게 2가지로 본 논문에서는 제시하고 있는데, 그중 첫번째는 Smoothness 개념을 적용한 adversarial regularization loss를 통해서 모델의 capacity를 제어하고자 하였습니다. 두번째 장치는 Bregman Proximal Point Optimization을 통해서 기존 Gradient Descent 학습 과정에서 이전 학습단계에서의 학습파라미터로부터 급격한 변화를 방지하여 원할한 fine-tuning이 가능하도록 하였습니다. 해당 논문의 내용들이 단순히 수식을 통해서 전달하기에는 어려울수 있지만, 해당 세미나를 준비한 발표자가 친절한 시각자료를 함께 전달해주었기에 어렵지 않게 이해할 수 있었습니다. 연구의 목적 자체가 매우 흥미로웠고, 이를 해결하고자 제안하는 두개의 메커니즘이 수학적으로 탄탄하기에 인상깊게 해당 연구를 받아들일 수 있었습니다. 발표를 준비한 발표자에게 다시한번 감사의 인사 전합니다.
Hyeyeon Kim

2021-08-16 00:58

이번 세미나는 대용량의 모델이기 때문에 과적합 등의 문제점이 있는 SMART의 모델에 대해 소개를 하며 진행되었습니다. 이때 이 과적합을 방지하는 방식에는 크게 1. Smoothness-Inducing Adversarial Regularization과 2. Bregman Proximal Point Optimization이 있습니다. 우선 첫번째 해결책인 smoothness-inducing adversarial regularization은 model의 capacity를 컨트롤하는 역할을 하고 있습니다. 그리고 두번째 해결책인 Bregman Proximal Point Optimization은 aggressive한 업데이트를 방지하는 역할을 하고 있습니다. Adversarial Regularization에 대해 언급하며, Smoothness에 대해서 설명해주셨는데, 이때 미분 불가능하다고 하여(꺾여있음) 꼭 미분 가능할 때보다 함수값이 커지거나 작아지는 것은 아니지만, 해당 논문은 그렇게 설정을 하여, 이러한 가정 아래 성립되는 주장인 것 같습니다. 중간에 Bregman Proximal Point Optimization의 수식 및 기타 내용에 대해서도 자세하게 설명해주셔서 이해하기 쉬웠습니다. 유익한 세미나 감사합니다.
Hoonsang Yoon

2021-06-19 21:01

현 시점에선 NLP Task를 수행하기 위해 방대한 양의 코퍼스를 대상으로 훈련한 Pre-trained Model을 사용하며, Down stream task에 대하여 Fine tuning을 실시합니다. 하지만 Downstream Task의 데이터 양은 비교적 적기에 Aggressive한 Fine tuning은 오히려 기존의 애써 훈련한 Pre-trained Model의 성능을 저해할 수 있습니다. SMART는 이 문제를 해결하기 위하여 Model의 Complexity를 조절하여 Input에 대한 Output 변화량이 커지지 않도록 Adversarial Regularization을 적용하는 Smoothness-inducing regularization / 그리고 Bregman proximal point optimization을 통해 각 iteration마다 penalty를 주어 빠른 Update를 저지합니다. 결국 두 기법이 추구하고자 하는 바는 지나친 Model Update를 막아 Robust한 모델을 생성하는 것입니다.
글로 설명하지 않고 숫자들을 나열한 다음 구두로 설명하는 방식으로 흐름을 놓친 적이 많지만, 결과 부분에서 SMART가 Default BERT의 Down stream Task 성능보다 월등히 좋음을 볼 수 있었기에 놀라웠습니다. 즉, 지금껏 발표된 연구들에서 진행한 Fine Tuning이 혹시나 Aggressive Fine-tuning이 아니었을까 라는 의문이 품게 되었으며 새로운 언어모델을 만들어낸 것 보다 현재 존재하는 언어모델의 효용성 및 발전을 연구하는 발표자의 연구가 매우 값지다는 생각이 들었습니다.
Subin Kim

2021-05-07 20:02

오늘 세미나 논문 주제는 SMART 라는 방법론입니다. 이는 pre-training에 적용되는 모델의 parameter가 많아짐에 따라 fine-tuning의 관점에서 발생하는 overfitting을 줄여보자는 것을 목적으로 제안되었습니다. overfitting을 pre-training dataset에 비해 fine-tuning dataset이 현저히 작다는 관점에서 해석한 것입니다. 따라서 fine-tuning시에 보다 강건하고 효율적으로 모델이 학습되기 위한 smoothing 기법과 loss update 기법을 제안하였습니다. 첫째로 smoothing을 위한 adversarial regularization loss를 제시하였고, 이는 원래 input 과 output에 대하여, perturbation이 반영된 input을 통해 생성된 output이 원본과 유사하도록 제한하는 기법입니다. 즉, 급격한 변화인 non-smooth 부분을 방지하는 것입니다. 두번째로 Bregman Proximal Point Optimization을 제안하는데, 구간 내 gradient의 변화량이 많다는 점을 근거로, 현재와 다음 iteration point의 거리가 가깝도록 제한하는 기능을 합니다. 이때 학습 속도를 느려지는 것을 보완하기 위한 momentum update 기법을 함께 사용합니다. 이 SMART 기법을 앙상블 모델에 적용하였을 때 glue 벤치마크에 대해 SOTA를 달성하였고 single model로서는 T5 대비 9가지 중 3가지 task에 대해서 30배나 적은 parameter수를 가지고 좋은 성능을 냈습니다. 약간의 정규화 방식, loss update 방식의 변화를 통해 좋은 성능을 이끌어냈다는 점이 인상깊었고, 발표자분께서도 언급하셨듯이, overfitting을 새롭게 정의한 점도 흥미로웠습니다. 뒤에 이어지는 개인연구에 대한 설명, 아이디어 전개 과정도 재미있게 들었습니다. 좋은 발표 감사합니다.
Hyeongwon Kang

2021-05-08 05:18

이번 세미나는 딥러닝 모델에서의 complexity를 낮추기 위한 SMART에 대해 발표해주셨습니다. Pertrained language model을 예시로 들어 설명해주셨는데 BERT의 경우 345M 파라미터인데 pre-training은 충분한 데이터(wikipedia + book corpus 20기가)로 학습을 하지만 fine-tunning(GLUE benchmark 98kb)은 너무 적어서 complexity 높아 over fitting이 발생하는 현상이 생깁니다. 따라서 SMART는 Large language model에서 fine-tunning시 over fitting 방지 방법을 제안한 기법입니다. SMART는 complexity를 control하기 위해 loss에 원래 language model loss에 adversarial regularization loss를 추가하여 계산하는 Smoothness-inducing adversarial regularization 방법, Aggressive update를 방지하기 위해 Bregman divergence를 사용하여 거리를 최소화하여 원본과 굉장히 유사하도록 다음 스텝 밟게하는 Bregman proximal point optimization 방법을 사용하였습니다.(학습 속도를 위해 momentum을 도입한 momentum Bregman proximal point optimization 사용) 결과를 보았을 때 성능 개선이 많았으며 굉장히 많은 파라미터를 가진 T5 모델과 유사한 결과를 내는 것이 신기하였습니다. Language 모델을 공부하면서 fine-tuning 진행시 데이터의 크기, complexity를 고려해서 생각해본적이 없었던 것 같습니다. 정말 유익한 시간이었습니다. 발표 감사합니다.
Jeongseob Kim

2021-06-25 11:20

오늘 세미나는 SMART 라는 약어로 대표되는 방법론에 대해 진행되었습니다. 매우 많은 데이터를 토대로 구축한 언어모델(Language Model)을 기반으로 한 pre-trained + fine-tuning 조합은 강력하고, 큰 주류로 자리잡은 듯 합니다. 본 연구는 성능은 매우 강력할 수 있지만, 그 과정에서 발생할 수 있는 overfitting의 가능성에 주목합니다. Fine-tuning 시, overfitting을 방지하기 위해 본 연구는 모델의 학습을 제약(regularization)하는 ‘Smoothness-Inducing Adversarial Regularization’를 제안합니다. 이를 통해, input의 분포가 달라져도 모델이 보다 강건한 성능을 낼 수 있기를 기대합니다. 더불어, ‘Bregman optimization’를 통해, 급격한 모델의 update를 방지합니다. 이는 기존의 모델과 update된 모델의 output간 분포의 차이를 줄이도록 하는 역할을 합니다. 본 연구는 이를 통해, 모델이 급격한 변화(overfitting)를 피할 수 있을 것으로 기대합니다. 본 연구는 실제로 실험을 통해 특정 task에서 매우 큰 parameter 사이즈를 갖는 T5를 상회하는 성능을 보였습니다. 단순히 모델의 사이즈를 크게하는 것만이 능사는 아니라는 점을 확인할 수 있었던 좋은 연구, 발표였습니다. 감사합니다.
Takyoung Kim

2021-05-09 00:20

Language model의 파라미터가 굉장히 많은데, fine tuning을 할 때 사용하는 데이터가 매우 적기 때문에 그만큼 파라미터를 덜 필요로 하고 결국 overfitting의 위험이 항상 존재한다는 설명이 직관적이어서 좋았습니다. 그리고 발표 논문인 SMART는 이를 방지하기 위한 regularization 기법을 제시합니다. 먼저 model capacity를 규제하기 위해 smoothness를 정의합니다. 이는 x가 일정 값 변화할 때 y의 변화량의 정도를 의미합니다. 이후 smoothness가 지나치게 커지지 않도록 adversarial regularization loss를 정의하는데, 수식으로만 보면 perturbation에 대한 bound를 제한하는 것 이외에는 이전 제 세미나에서 발표했던 data distortion-guided self distillation과 거의 똑같은 형태라고 생각했습니다. 둘 다 robustness를 확보하는 목적이 있기 때문에 유사할 것이라는 생각이 듭니다. 그렇지만 간단한 방법에 비해 성능 측면에서는 굉장히 유의미한 수치를 보여서 유사한 다른 분야와 더 결합한다면 더 발전될 여지가 있을 것 같습니다. 좋은 발표 잘 들었습니다. 감사합니다.
Jaehyuk Heo

2021-05-09 00:43

오늘 세미나는 2020년 ACL에서 발표된 SMART라는 논문을 주제로 세미나를 진행하였습니다. 이번 세미나에서는 초반에 모델의 Complexity를 먼저 설명해주시고 Language Model이 Pre-training 시 방대한 양의 데이터를 사용하지만 fine-tuning 시에는 비교적 적은 양의 데이터를 사용하여 over-fitting되는 문제를 언급하고 본 논문에서 제안하는 방법인 강건하고 효율적인 fine-tuning 에 대해 소개하였습니다. 제안된 방법에서는 Adversarial Regularization을 제안하고 이 방법을 통해 입력값이 조금 달라져도 Model의 Smoothness를 강화하여 robust한 모델로 만들 수 있다고 합니다. 제안한 Regularization에 대한 Loss가 FreeLB와 유사하지만 다른 점은 모델이 예측한 Label이 아닌 Probability를 통해 KL-divergence를 적용하였습니다. 하지만 해당 Regularization 방법이 간단한 noise를 추가한 방법보다 연산 측면에서 효율적인 방법인지에 대한 의문이 있지만 그에 대한 ablation study가 없다는 점이 아쉬웠습니다. 실제 실험 결과에서는 GLUE 데이터에서 T5보다 높은 성능을 내는 task가 있었다는 점에서 방법이 실제로 효과적이였다고 볼 수 있었습니다. 모델의 크기가 성능과 비례한다는게 일반적이지만 그렇지 않은 경우도 있다는 것을 보여줄 수 있는 좋은 예시라고 생각합니다. 좋은 발표 감사합니다.
Seungwan Seo

2021-05-09 13:58

본 논문에서는 finetuning시 적은 데이터로 인해 발생하는 overfitting 문제를 지적하고 있습니다. 일반적으로 생각하면 내가 가지고 있는 데이터가 적기 때문에 파라미터가 매우 많은, 큰 모델을 처음부터 학습할 수 없는 경우 finetuning을 진행합니다. 이런식으로 pretrained model에 내가 가지고 있는 소수의 데이터를 통해 finetuning을 하면 성능이 매우 향상되기 때문에, 보통 pretrained model을 사용하는 행위 자체를 적은 데이터 때문에 발생하는 overfitting을 완화하는 방식이라 받아들입니다. 하지만 본 논문에서는 이러한 생각에 의문을 제기하며 본인들의 아이디어로 본인들의 의문을 해소하고 있습니다. 약간 충격적인 문제 제기였으며 왜 이런 생각은 못해봤을까 라는 생각이 들었습니다. 다만 이러한 문제를 푸는 데 있어서 보다 간단한 방식을 사용할 수는 없었을까? 라는 생각이 들기도 했습니다. 앞으로도 꾸준히 연구가 될 문제이지 않을까 생각합니다.
Jungwoo Choi

2021-05-09 22:05

본 논문은 Language model 은 pre-training 데이터가 너무 많아서 Complexity 높은 over-fitting의 위험이 항상 있다 라는 문제를 제시하며 SMART 방법론으로 이를 해결하는 것을 제안한 논문이었습니다. SMART 방법론은 두가지 방법으로 구성되는데, Model의 Capacity를 Control 하는 방법과 Aggressive update를 방지하는 방법을 제안합니다. X의 변화량과 Y의 변화량 비교를 통하는 Smoothness 개념을 제시하며, Adversarial regularization을 통하여 Input이 변경되었을 때 원본과 유사하게 변화되도록 하는 loss를 제시하였고, Bregman proximal point optimization을 제시하여 정밀하게 optimization을 수행하며 원본과 유사하도록 iteration을 수행할 수 있도록 aggressive update를 막아주는 역할을 수행하는 방법을 제시하였습니다. 논문에서 등장하는 개념부터 쉽게 잘 설명해 주셔서 이해하는데 논문내용을 이해하는데 많은 도움이 되었습니다. 좋은 발표해 주셔서 감사드립니다.
Donghwa Kim

2021-05-10 12:43

이번 세미나에서는 SMART라는 pretraining기법과 관련된 내용이었습니다. 제안 방법론의 도입부를 smoothness를 사용하여 내용을 전개하였습니다. smoothness는 X의 급격한 변화(+delta)에도 y와의 관계가 유지될수록 smooth에 대한 데이터라고 말할 수 있으며 robust한 정도를 나타내는것 같습니다. 해당 부분은 adversarial training에 대한 하나의 척도로 해석할 수 있을 것 같습니다. SMART의 경우는 확률기반으로 FreeLB의 경우는 확정적인 값으로 학습을 한다는 점에서 차이가 있는것 같습니다. 개인적으로 기존의 대용량 모델이 효과적인 학습방법(generalized model)이라고 이해하였습니다. 하지만, 너무 정규화가 되면 특정 task에 성능향상이 되겠지만은 다양한 task에 작 적용될 수 있는지 의문점이 남으면서 후기를 마쳐봅니다. 좋은 발표 감사합니다.
Jounghee Kim

2021-05-11 13:48

오늘 세미나에서는 SMART 논문에 대해 설명해 주셨습니다. 일반적으로 Deep Learning Model의 Complexity는 Paramter 수에 따라 증가합니다. Lanugage Model의 경우 문맥화된 Representation을 얻기 위하여 매우 많은 Parameter를 가진 모델과 대량의 데이터를 활용하여 Pre-training을 수행합니다. 하지만 Fine-tuning을 수행할 때는 Pre-training에 비해 데이터가 매우 적기 때문에 Overfitting의 위험이 존재합니다. 이를 방지하기 위하여 SMART 논문에서는 2가지 Finetuning 기법을 소개합니다. 첫번째는 Smoothness-inducing Adversarial Regularization입니다. 이 방법은 Model을 Smooth하게 만들기 위해 Input에 Noise를 부과하고 Output의 분포를 원본과 유사하도록 Adversarial Training을 수행하는 방법입니다. 두번쨰는 Bregman Proximal Optimazation 입니다. 이 방법은 파라메터로 출력된 Output의 분포와 현재 업데이트될 파라메터로 출력된 Output의 분포간의 차이를 Loss로 부과하여 파라메터를 업데이트 할 때, 유사도를 계속해서 유지하도록 학습을 수행하는 방법입니다. 해당논문에서 가장 인상깊었던 점은 Regulaization을 적극 활용하여 모델의 학습 관점에서 효율적이도록 조정했다는 점 입니다. 좋은 발표 감사합니다.
Yukyung Lee

2021-07-26 19:24

모델이 더 높은 성능을 내기 위해서는 더 큰 모델을 만드는 것이 일반적입니다. 파라미터를 늘린다는것은 하나의 지식을 배우기 위해서 사용할 수 있는 자원이 많다는 것과 동일한 의미이며, 대부분 이를 capacity라고 표현합니다. 하지만 대량의 자원을 투입하는것은 대량의 비용을 발생시키게 됩니다. 따라서 비슷한 크기를 가지되 높은 성능을 내는 모델이 제안되고있습니다. 해당 모델에서 제안된 방법은 Smoothness-Inducing Adversarial Regularization, Bregman Proximal Point Optimization입니다. 쉽게 말해 finetuning시 발생가능한 overfitting을 줄이기 위해 제안된 방법입니다. 첫번째 방법이 재미있었는데, perturbation을 input에 가해 임의 조작을 더한 후 output과 original input이 같도록 강제하는것 입니다. 하지만 이러한 방법은 perturbation 정도에 따라 성능에 큰 영향을 줄 것 같다는 생각이 들었습니다. 해당 모델에서는 smoothing을 위해 제시된것이므로 Noise 수준의 값을 주입했기에 잘 working했을것이라 생각합니다. noise가 실제로 input을 과도하게 변경시키지 않는지 확인하는 작업이 매우 중요할것으로 생각됩니다. 감사합니다
Kyoungchan Park

2021-05-14 14:26

이번 세미나에서 발표해주신 논문은 근본적인 문제 제기를 하고 있었습니다. 이는 데이터가 적은 경우 모델이 과적합 되지 않도록 어떻게 일반화 성능을 확보할 것인가에 대한 질문입니다. 본 논문에서 embedding단에 adversarial noise를 주어 결정 경계면이 해당 data point에 과적합되지 않도록 하는 방식은 굉장히 직관적이였습니다. adversarial defense 관점에서만 바라보던 adversarial attack이 자연어 처리 분야에서는 embedding vector에 대해 noise를 주는 방식이기 때문에 과적합을 방지하는데 쓸 수 있다는 사실이 새로웠습니다. Adversarial perturbation의 다른 활용 가능성에 대해서도 생각해 볼 수 있는 좋은 시간이었습니다. 좋은 발표 감사드립니다.
Kyoosung So

2021-06-26 21:18

오늘 소개해주신 논문은 SMART라는 논문으로, fine-tuning 과정에서 pre-trained LM이 데이터에 과적합되는 문제를 해결하고자 하는 방법론을 제시하였습니다. 가장 중요한 부분이 smoothness-inducing adversarial regularization이라는 규제화인데, 간단하게 x의 변화에도 y의 분포가 크게 변하지 않도록 loss를 걸어주면서 adversarial noise를 부여하는 방법론입니다. 이러한 방법론을 통해 fine-tuning을 수행할 데이터의 분포에 모델의 output이 크게 변화하지 않는, 즉 과적합을 어느 정도 막으면서 task-specific한 파라미터 튜닝을 수행하도록 한다고 이해하였습니다. 간단한 방법이면서도 좋은 효과를 냈다고 하니 인상적이었고, 앞으로 연구에 있어서 이를 적극 활용하면 어떨까 생각했습니다. 좋은 발표 감사합니다.
Yunseung Lee

2021-06-29 16:05

금일 세미나는 pretrained language model의 파라미터가 많아서 발생할 수 있는 overfitting을 방지하기 위한 regularization 방법론인 SMART에 대한 소개로 진행되었습니다. 사이즈가 큰 모델에서의 overfitting은 주로 pretraining에서는 대용량 corpus를 활용하지만, fine-tuning 시 데이터 개수가 적어서 발생하게 됩니다. 이를 해결하기 위해 smoothness inducing adversarial regularization 과 bregman proximal point optimization 을 적용합니다. Adversarial regularization은 input embedding에 noise를 추가하였을 때의 ouput 분포과 noise 없을 때의 output분포와 유사하도록 강제하는 방법입니다. 이를 통해 output이 변화에 강건하도록 합니다. 두번째로는 proximal point optimization 방법인데, 이는 급진적인 update를 방지하기 위한 장치입니다. 이 방법론을 도입하여 single 모델이 T5와 유사한 성능까지 달성한 것에 흥미로운 방법론들이라고 생각했습니다. 좋은 발표 감사합니다.
Jina Kim

2021-06-29 16:48

오늘 세미나는 Robust한 fine-tuning을 위해 제안된 regularized optimization 방법론인 SMART에 대한 내용으로 진행되었습니다. 대용량 언어 모델은 parameter의 수가 매우 많기 때문에 task에 맞게 fine-tuning할 시, fine-tuning을 위한 dataset의 크기는 대용량 언어 모델의 parameter를 충분히 학습시킬만큼 크지 않아 overfitting될 가능성이 큽니다. 이러한 문제를 해결하기 위해 본 논문에서는 smoothness-inducing adversarial regularization, bergman preximal point optimization을 도입하였습니다. 전자의 경우, input embedding에 noise를 부과해도 그렇지 않았을 때의 output 분포와 유사하게 학습하도록 하여 모델이 작은 변화에도 output을 크게 변화시키지 않게 합니다. 후자의 경우에도 output 분포 차이를 줄이기 위한 방법입니다. 언어 모델이 점점 커지면서, task-specific한 data가 여기에 따라가지 못하는 실정인데, 이를 컨트롤할 수 있는 방법론을 제시했다는 점에서 의의가 있는 논문이라고 생각합니다. 좋은 발표 감사합니다.
Heejeong Choi

2021-07-07 18:11

금일 세미나는 "SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization"라는 주제로 진행되었다. 본 발표에서는 Language Model이 대용량 Corpus를 사용한 Pre-Training을 위해 매우 많은 Parameter를 보유하고 있지만, Fine-Tuning을 수행할 때에는 데이터의 수가 많지 않기 때문에 많은 Parameter로 인한 Overfitting을 방지하기 위해 Smoothness-Inducing Adversarial Regularization과 Bregman Proximal Point Optimization을 도입한 SMART 모델이 소개되었습니다. 제안된 방법론에서 사용된 Smoothness-Inducing Adversarial Regularization과 Bregman Proximal Point Optimization에는 처음 접하는 내용들이 많아 세미나를 이해하는데 어려움이 있었지만, 발표자분이 자세하게 설명해주셔서 이해하는데 도움이 많이 되었습니다. 좋은 발표 감사합니다.
Euisuk Chung

2021-07-11 12:21

이번 세미나는 "SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization"라는 주제로 진행되었습니다. 최근 Language Model들은 NLP Task를 수행하기 위해 대용량 Corpus를 통해 학습된 Pre-trained Model을 사용하며, Down stream task에 대하여 Fine tuning을 실시합니다. 하지만 이러한 Downstream Task의 데이터는 양이 비교적 적기떄문에 Aggressive한 Fine tuning은 Overfitting을 유발하여 기존 사전학습된 모델의 성능을 저해할 수 있다는 문제점이 있습니다. 해당 논문은 Smoothness-Inducing Adversarial Regularization과 Bregman Proximal Point Optimization(SMART)를 통해 이러한 문제점을 해소하고자 하였습니다. 해당 방법론은 (1) Model의 Complexity를 조절하여 Input에 대한 Output 변화량이 커지지 않도록 Adversarial Regularization을 적용하는 Smoothness-inducing regularization 방법론과 (2) 각 iteration마다 penalty를 주어 빠른 Update를 저지하는 Bregman proximal point optimization을 이용합니다. 다소 어려운 내용들이 많이 나왔지만 발표자분께서 차근차근 자세하게 설명해주셔서 이해하는데 도움이 많이 되었습니다. 좋은 발표 감사합니다.

« [Paper Review] Large Margin Deep Networks for Classification

[Paper Review] SSD: A unified framework for self-supervised outlier detection »

목록보기

전체 502

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10411	관리자	2020.03.12	0	10411
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9031	관리자	2020.03.12	0	9031
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10124	관리자	2020.03.12	0	10124
499	[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (3) Doyoon Kim \| 2025.05.01 \| 추천 0 \| 조회 53	Doyoon Kim	2025.05.01	0	53
498	[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (13) Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 139	Sunghun Lim	2025.04.24	0	139
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (15) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 126	Suyeon Shin	2025.04.21	0	126
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 170	Woongchan Nam	2025.04.16	0	170
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 314	Kiyoon Jeong	2025.04.16	0	314
494	[Paper Review] Reasoning over Time Series with LLMs (16) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 348	Hyeongwon Kang	2025.04.09	0	348
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (17) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 337	Jaehyuk Heo	2025.04.02	0	337
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (16) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 334	Jaehee Kim	2025.04.02	0	334
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (20) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 283	Jungho Lee	2025.04.02	0	283
490	[Paper Review] Data-driven discovery of coordinates and governing equations (18) Hankyeol Kim \| 2025.03.25 \| 추천 0 \| 조회 259	Hankyeol Kim	2025.03.25	0	259

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호