Seminar

BOARD

[Paper Review] BERT-of-Theseus: Compressing BERT by Progressive Module Replacing

작성자

Jina Kim

작성일

2021-07-06 04:42

조회

1709

1. Topic

Model-agnostic한 새로운 model compression method, Theseus Compression을 제안합니다.

본 논문에서는 Theseus Compression for BERT: BERT-of-Theseus를 다루고 있습니다.

2. Overview

BERT에 대한 Theseus Compression은 크게 두 단계로 나뉩니다.

Module Replacing
- Original BERT, Predecessor를 여러 개의 module로 나눠 각각의 predecessor module에 대응하는 successor module을 정의해, 점점 predecessor를 대체하는 module replacing을 진행합니다. 이 때의 loss function은 task-specific한 loss function을 사용하며, predecessor의 weight는 update 하지 않습니다.
Successor Fine-Tuning and Inference
- Predecessor module을 대체한 모든 successor module을 합쳐 successor model이라고 하고, 이를 다시 task-specific loss function을 사용해 fine-tuning합니다.

Compression 과정에서 task-specific loss function 하나만을 사용합니다.
Transformer-specific feature를 사용하지 않아 넓은 스펙트럼의 Model을 Compress 할 수 있습니다.
Original Model(predecessor model)이 successor model과 gradient-level에서 deeper interaction이 가능합니다.

- BERT-base의 성능 98.4%를 재현하였습니다.
- 기존 Knowledge distillation-based model의 성능을 능가하였습니다.

3. 참고 논문

https://arxiv.org/pdf/2002.02925.pdf

4. 발표 자료: 첨부파일

5. 발표 영상: [업로드 예정]

전체 19

Hyeongwon Kang

2021-07-12 02:45

이번 세미나는 BERT-of-Theseus: Compressing BERT by Progressive Module Replacing을 주제로 진행되었습니다. 먼저 발표자분께서 pre-trained language model에 대해서 설명해주시고 pre-trained language model의 크기가 증가함에 따라 memory 문제, training/inference 시간 증가, over-fitting으로 인한 performance 감소, practical problems를 들었습니다. 이를 해결하고자 사용되는 모델 경량화 방법 4가지를 소개해주셨으며, 그 중, 본 논문과 관련된 Knowledge Distillation에 대해 설명해주시고 BERT-of-Theseus에 대해 소개해주었습니다. BERT-of-Theseus는 유명한 역설 중 하나인 테세우스의 배를 모티브로 BERT의 module을 더 적은 파라미터를 가지는 모듈로 점진적으로 대체하여도 BERT의 성능을 낼 수 있는가를 보였습니다. BERT-of-Theseus에서 사용된 방법은 크게 Module Replacing, SuccesSor Fine-tuning and Inference 두가지 입니다. teacher model인 predecessor와 student model인 successor 간의 distillation으로 pre-training을 진행하고, successor를 가지고 fine-tuning을 수행 합니다. 이 과정에서 베르누이 확률분포에 의해 predecessor의 일부를 successor로 replace 합니다. 또한 replacement scheduler를 사용하여 모듈을 점진적으로 replace합니다. 초반에는 predecessor를 많이 사용하여 더 정확하게 예측하고 학습이 진행될수록 더 많은 모듈이 successor와 predecessor를 같이 사용함으로써 predecessor의 guidance를 덜 받고 예측하게 함으로써 학습이 진행됨에 따라 자연스럽게 successor만을 학습하는 fine-tuning단계로 전환됩니다. 본 제안 방법은 1.94배 속도 향상과 BERT-base 성능의 98.4%를 보였습니다. 제가 최근에 보았던 논문들, 기법들 중에서 가장 신선했던 것 같습니다. 처음부터 모델의 크기를 줄여 knowledge ditillation을 진행하는 것만 생각했지 모듈로 구성하여 점진적으로 모듈의 크기를 감소시키는 방법에 대해서 왜 생각하지 못했을까라는 생각이 들었습니다. 발표 정말 재미있게 들었습니다. 좋은 발표 감사합니다.
Myeongsup Kim

2021-07-12 14:52

매우 흥미로운 주제의 세미나였습니다. 다수의 LM이 매우 우수한 성능을 보이고 있지만, 매우 많은 Parameter를 보유하고 있기에, 실제적으로 활용하기 어렵다는 것은 고질적인 문제입니다. 이를 해결하기 위해 Model의 Performance를 유지하며 Size를 줄이고자 하는 다수의 연구들이 수행되었으며, 소개해 주신 논문은 이러한 연구들에 속합니다.
소개해 주신 논문의 경우, 우선적으로 아이디어가 상당히 신선하게 느껴졌는데, BERT의 Layer중 2개 이상의 Layer를 각각 모듈화 한 뒤, 소수의 Layer를 갖는 모듈로 대체하는 방식으로 기존과 유사한 Representation을 학습할 수 있도록 하며, 점진적으로 다수의 Layer를 갖는 모듈을 소수의 Layer를 갖는 모듈로 대체하여 최종적으로는 소수의 Layer만을 갖는 모듈만이 남도록 학습을 수행합니다.
결과적으로 GLUE Benchmark에서 BERT-base 대비 약 절반 정도의 Parameter를 가지고 기존 성능의 98.4%에 해당하는 성능을 달성하였는데, Fine-Tuning 관점에서는 LM이 Overparameterize 되었다는 근거로 볼 수 있지 않을까 하는 생각도 들었습니다. 좋은 발표를 진행해 주셔서 감사합니다.
Jounghee Kim

2021-07-12 17:46

오늘 세미나는 개발되어 있는 pre-trained 모델을 경량화하여 기본 크기의 base 모델과 비슷한 효과를 낼 수 있는 방법에 대한 논문인 BERT-of-Theseus를 설명해 주셨습니다. MLM pretraining을 통해 대량의 corpus를 활용하여 학습된 BERT는 일반적으로 모든 Task에서 우수한 성능을 보입니다. 하지만 모델의 크기가 매우 크기 때문에 활용하기 어렵습니다. 모델의 크기가 매우 크면 학습 시 많은 메모리가 필요하며, Training 시간과 Inference 시간도 많이 필요하기 때문입니다. 또한 큰 메모리를 차지하기 때문에 on-device에 적용하기 어려워 많은 분야에 활용되기 힘듭니다. 이를 개선하기 위하여 BERT-of-Thesues 논문은 Layer의 갯수를 compression하여 모델을 Task 데이터에 학습시키는 방법에 대해서 다루고 있습니다. 이 논문의 가장 큰 장점은 Distillation을 통해 새로운 Pre-trained 모델을 만들지 않고, Task에 바로 적용하기 때문에 학습시간이 오래걸리지 않는다는 점입니다. 게다가 task 데이터를 활용하여 distillation을 적용하므로 성능 또한 다른 distillation 모델보다 우수하다는 장점을 갖고 있습니다. Transformer와 비슷한 형태의 모든 모델에서 활용 가능하다는 점 또한 굉장히 흥미로운 점 중 하나입니다. 좋은 발표 감사합니다.
Heejeong Choi

2021-07-13 18:59

금일 세미나는 "BERT-of-Theseus: Compressing BERT by Progressive Module Replacing"라는 주제로 진행되었습니다. 본 발표에서는 model-agnostic한 새로운 model compression method인 Theseus Compression이 소개되었습니다. 서비스와 밀접한 관련이 있는 산업공학 입장에서 본 방법론은 현실적으로 중요한 부분이라는 생각이 들었습니다. 특히 BERT의 경우에는 성능은 매우 좋지만 크기 또한 매우 큰 모델이기 때문에 경량화가 매우 중요한 부분이라고 생각되었는데, 이번 세미나를 통해 그 부분에 대해 자세하게 접할 수 있어 좋았습니다. 발표 내용 중 모듈을 점진적으로 대체하는 부분이 가장 인상적이었으며, 무조건적으로 좋은 성능을 도출하기 위해 큰 모델을 쓰는 것이 맞는가라는 생각이 들게하는 발표였습니다. 좋은 발표 감사합니다.
Euisuk Chung

2021-07-15 22:25

이번 세미나는 BERT-of-Theseus: Compressing BERT by Progressive Module Replacing을 주제로 진행되었습니다. 본격적인 논문을 설명하기에 앞서 발표자분 께서 pre-trained language model에 대해서 설명해주시고 언어 모델의 크기가 증가함에 따라 (1)Memory Limitation (2)Training/Inference Speed (3)Worse Performance (4)Practical Problems이라는 문제가 존재하게 됩니다. 이러한 문제를 해결하기 위해 (1)Quantization (2)Pruning (3)Knowledge Distillation (4)Weight Sharing의 Model 경량화 기법을 수행할 수 있다고 설명해주셨습니다. BERT-of-Theseus는 테세우스의 배라는 역설을 모티브로 BERT의 module을 더 적은 파라미터를 가지는 모듈로 점진적으로 대체하여도 기존 BERT의 성능을 낼 수 있는가를 확인해보고자 하였습니다. BERT-of-Theseus에서 사용된 방법은 크게 (1)Module Replacing, (2)Successor Fine-tuning and Inference입니다.

먼저, Module Replacing은 기존 BERT(predecessor)를 여러 개의 module로 나누어주고, 각각의 predecessor module에 대응하는 successor module을 정의하고, 점점 predecessor를 대체하는 module replacing을 진행합니다. 이 때의 loss function은 task-specific한 loss function을 사용하며, predecessor의 weight는 update 하지 않습니다. 다음으로, Successor Fine-tuning and Inference은 predecessor module을 대체한 모든 successor module을 합치고, 이를 다시 task-specific loss function을 사용해 fine-tuning을 수행하게 합니다. 모델을 여러 모듈로 구성하여 각각의 모듈의 크기를 감소시킨다는 아이디어가 심플하면서 참신했던 것 같습니다. 좋은 발표 너무 감사합니다!
Kyoosung So

2021-07-18 15:44

이번 세미나는 BERT-of-Theseus: Compressing BERT by Progressive Module Replacing라는 논문을 소개해주셨는데, 이름부터 굉장히 흥미를 끄는 논문이었습니다. 일반적으로 알던 distillation의 경우 teacher model과 student model의 출력 분포를 기준으로 기존 모델을 경량화하지만, 이번에 소개해주신 논문의 경우 teacher model이라고 할 수 있는 predecessor의 모듈을 점진적으로 대체하여 task-specific한 loss를 통해 successor를 만들어냅니다. 이 때 모듈은 곧 Bert 모델에 있는 transformer layer를 의미하며, 베르누이 확률을 기반으로 확률적으로 layer를 compress하면서 successor가 충분히 task에 대해 좋은 성능을 내도록 합니다. 이전에 CNN 모델을 경량화하는 데에 강화학습을 사용하는 논문과 유사하다고 생각이 들었는데, 해당 논문의 경우에도 CNN의 layer를 대체/압축하는 데에 강화학습 방식을 이용해 더욱 작은 모델을 구축한 것으로 기억합니다. 어찌되었든 기존에 제가 알던 distillation과는 조금 다른 방식으로 충분히 좋은 결과를 내었기에 신선하고 흥미로운 방법론이라고 생각하며, 요새 distillation이 굉장히 핫한 것 같아 앞으로도 관련된 세미나를 자주 접할 것 같습니다. 좋은 발표 감사합니다.
Hyeyeon Kim

2021-08-16 01:44

이번 세미나는 “BERT-of-Theseus: Compressing BERT by Progressive Module Replacing” 에 대한 세미나였습니다. 본 논문에서 주장하는 방법론은 BERT를 경량화 하는 방법으로, 기존의 predecessor를 6개의 BERT module에서 각각 두개가 하나로 압축되어 총 3개의 successor module를 갖는 구조로 경량화하는 방법입니다. 이때 저자들은 module을 한번에 바꾸는 것이 아니고, 점진적으로 replacement를 진행하여 전과 후의 구조의 장점을 모두 취하고자 하였습니다. 개인적으로 경량화에 대해 contribution을 설명할 때, 시간이 얼마나 단축됐는지가 메인 contribution이라고 생각했는데, 본 연구와 같이 성능이 얼마나 덜 하락했는가도 main contribution이 될 수 있다는 것을 알 수 있었습니다. 흥미로운 발표 감사합니다.
Hoonsang Yoon

2021-07-24 17:00

본 세미나는 나날이 증가하는 모델의 크기를 줄이는 동시에, 성능은 유지하는 Knowledge Distillation(KD)의 일종이지만, 전혀 다른 방식으로 KD를 적용한 사례를 소개하였습니다. 원 KD는 높은 성능을 유지하는 큰 사이즈의 Teacher Model의 예측 분포를 Student Model이 흉내내는 방식으로 진행되어, Teacher의 지식이 Student에게 전달된다고 할 수 있습니다. 논문에서는 이런 방식은 distillation loss function에 의해 KD가 진행되므로, Model Specific하게 진행될 수 밖에 없다고 서술하며, Agnostic한 방식을 위해 본 논문의 방식을 제안합니다. 본 모델은 BERT 모델의 세부 모듈들을 점진적으로 더 간단한 모듈로 경량화한 뒤, 랜덤한 방식으로 교체를 해나갑니다. 본 논문의 아이디어도 재밌고 다소 고착화되기 시작한 KD의 방식에 새로운 패러다임을 던져주기도 했지만, 가장 흥미로웠던 것은 모델의 이름 안에 자신들의 핵심 아이디어가 모두 설명될 수 있도록 한 부분이며, 논문의 이름이 이해를 크게 향상시킬 수 있다는 부분이었습니다. 좋은 발표 감사드립니다!
Jeongseob Kim

2021-08-03 01:55

금일 세미나는 BERT-of-Theseus: Compressing BERT by Progressive Module Replacing paper에 대해 지행되었습니다. 계속해서 커지고 있는 ‘대용량’의 Pretrained 언어모델은 여러 한계점 혹은 어려움을 갖게 됩니다. 대표적으로 해당 모델을 학습 시키는 것도, 적용하는 것도 매우 높은 수준의 인프라 속에서만 가능하다는 점입니다. 이는 Vision, NLP 할 것 없이 Pretrained모델 자체가 갖는 한계점이 될 것 입니다. Knowledge distilation이나 다양한 방법론들을 활용해 이러한 “대용량”을 완화할 수 있는 방법들이 시도되고, 연구되는 것도 이러한 이유 떄문일 것 입니다. 본 연구는 대용량의 모델을 압축(“compression”)하는 관점에서 방법론을 전개합니다. 기존의 대용량의 언어모델을 더 적은 수의 parameter를 갖는 모듈로 대체하는 것입니다. 이 압축 과정은 크게 모델을 대체하고, FIne-tuning을 진행하는 2단계로 나눠 이해할 수 있습니다. 이렇게 대체한 결과, 기존 BERT-base 모델 성능에 근접하는 성능을 달성할 수 있었습니다. Parameter 수는 절반 정도만 사용하면서도, 거의 유사한 성능을 달성했다는 점은 인상 깊었습니다. 모델을 경량화하는 방법으로 대표적으로 knowledge Distillation을 생각해왔었습니다. 하지만, 이번 세미나를 통해 새로운 방법론을 접할 수 있게 되었습니다. 더욱 적용 범위를 가질 수 있고, Loss 도 task에 국한한 별도의 Loss를 디자인 한다는 점에서, Knwoledge distillation과 비교해볼 수 있었습니다. 관심을 갖고 있는 Vision 분야에서도 모델 경량화가 많이 중요할 것으로 보이는 데, 세미나를 통해 접한 Model compression 관점에서 어떠한 접근이 있어왔고, 현재의 상황은 어떠한 지 관심을 갖고 지켜봐야할 것 같습니다. 좋은 내용과 좋은 발표 감사드립니다. 발표 자료도 잘 정리되어 이해를 높일 수 있었습니다. 감사합니다.
Yukyung Lee

2021-07-06 01:40

오늘 세미나는 BERT of Theseus를 주제로 진행되었습니다. 소개해주신 방법론은 BERT를 compression 하는 방법 중 하나입니다. 모델을 경량화 하는 방법이 중요하다는것은 알고있었지만 자세한 내용을 알고있지 못했는데, 세미나를 통해 다양한 방법론을 접할 수 있어 도움이 되었습니다.

원래 KD 방법론은 KD loss와 Task loss를 사용하여 모델을 학습하지만, Theseus는 task에 대한 loss만으로도 모델을 잘 압축하는 방법론이었습니다. 특정 prd 모듈을 scc 모듈로 대체 했을때의 성능을 확인해보면 (37page) 첫번째 모듈을 대체한 경우 성능 하락을 확인 할 수 있었습니다. 저는 이를 통해 각 prd module이 특정 역할을 한다는 가정이 깔려있다고 이해했습니다. 즉, 가장 아래의 prd 모듈이 모델에 미치는 영향과, 그 다음 모듈이 모델에 미치는 영향이 분리되어 있다고 가정하여 다음과 같은 compression 방법을 서술했다고 이해했습니다. (Bert나 Transformer 기반의 모델 연구를 살펴보면 각 레이어의 역할이 분리되어있다고 분석하는 논문들이 있기에, 이 연장선으로 compression 방법을 제안한것이 아닐까 생각했습니다.) 하지만, 마지막 Analysis를 보면 module 개수에 상관없이 성능이 강건하다 라는 부분을 강조해서 제가 이해한 방식과 저자들의 주장에 차이가 있다고 이해했습니다. 모델의 크기가 점점 커지고, 성능을 향상시키기 위해 다양한 모델이 제안되고 있지만 거대 자본 없이는 쉽게 연구하기 어려운 시대가 되었습니다. compression이나 KD는 매우 중요한 연구 분야라 생각되며 앞으로도 세미나를 통해 열심히 팔로우업 해야겠다는 생각을 했습니다. 감사합니다.
Hyungseok Kim

2021-07-06 15:37

금일 세미나 시간에는 대용량 모델의 효율적인 경량화 방법을 주제로 BERT-of-Theseus: Compressing BERT by Progressive Module Replacing을 다루어 보았습니다. 발표의 초반에는 대용량모델의 경량화 방법을 크게 4가지로 나누어서 확인해보았습니다. 1.Quantization, 2.Pruning, 3.Knowledge Distillation, 4.Weight Distillation이 이에 해당되는데, 발표 논문은 3번에 해당되어, 거대한 사이즈의 teacher model로부터 상대적으로 compact한 사이즈의 student model로 학습된 정보(knowledge)들을 transfer하여 teacher 모델에 준하는 성능을 모방하도록 하는 것이 목적입니다. 실질적인 경량화는 해당논문에서 제안하는 Module Replacing을 통해서 수행되게 됩니다. 구체적으로는 predecessor에서 2개층의 transformer layer는 successor module내 1개층의 transformer layer로 대체가 수행되는데 이과정에서는 Replacing-Rate p에 따라 Bernoulli(p)를 따라 수행되게 됩니다. 따라서, p는 얼마나 successor module이 replacing 할지를 확률적으로 결정하게 됩니다. 해당 논문에서는 linear한 scheduler를 활용하여 점진적으로 p를 1에 가깝게 하여, 자연스럽게 Successor만을 학습하는 fine-tuning 단계로 이어질 수 있도록 하였습니다. 해당논문은 Knowledge Distillation을 목적으로 하는 simple한 model compression 아이디어임에도 불구하고 전반적으로 의미 있는 결과를 보여주고 있습니다. 세미나의 서두에 KD에 대한 연구적인 배경을 친절하게 다루어 주었기 때문에, 저처럼 KD 연구 분야에 대해 친숙하지 않은 입장에서도 쉽게 이해할 수 있었습니다. 발표자님의 친절한 세미나 발표 감사드립니다
Jungho Lee

2021-07-06 17:59

BERT 의 기본적인 개념을 설명하며, BERT 의 경량화의 필요성에 대해서 언급하면서 공감할 수 있는 부분이 많았습니다. 그 중 Knowledge Distillation 은 이전 세미나에서도
많이 언급된 주제이고, 사실 그전 까진 경량화에 대한 필요성을 잘 느끼지 못했는데, 구체적으로 사용되는 케이스를 접하고 난 후에 많은 생각의 변화가 있었습니다. Successor module 을 함께 학습을 하면서 업데이트 되는데, 이후 S module 은 fine tuning 에 그대로 사용되게 됩니다. 처음에 학습 단계에서 Processor 와 Successor 를 함께 사용하는 것은 loss 가 여러게 있는 것과 유사한 효과를 가져오며, regularization 효과도 있다고 합니다. 실제 성능에서 속도측면에서 개선이 많이 되었고, 기존 BERT 에서 성능재현이 98% 정도 되는 결과를 보여주었습니다. 속도 측면은 모델의 크기(파라메터) 와 관련이 있는 것으로 생각되는데, Fine tuning bert 와 속도 비교에 대한 언급이 조금 적었는 거같은데, 같은 파라메터에도 불구하고 속도 향상이 있는것이 의미있어 보였습니다.
Donghwa Kim

2021-07-06 18:02

이번세미나에서는 BERT-of-Theseus: Compressing BERT by Progress module replacing에 대해서 발표해 주셨습니다. GPT3는 굉장히 좋은 성능을 보였는데 큰 메모리가 필요하다는 문제가 있습니다. 또한 on device의 적용에 어려움이 있어 application에 적용에 어려움이 있다고 할수 있습니다. 이 문제를 해결하기 위해서 knowledge distillation사용되고 있는데, DistilBERT(response-based distillation)의 경우 model 구조와 상관없이 범용적으로 적용할수있는 방법이었고, TinyBERT(feature-based distillation: block내부에 있는 attention, feature vector의 차이 최소화)는 transformer에 집중해 다른 모델에 적용하기 어려운점이 있습니다. 본 논문에서 Module replacing 방식은 predecessor, successor 모델의 관계를 베르누이 확률분포를 가정해서 student(Successor)모델의 예측값을 사용할지, teacher(predecessor) 모델의 예측값을 사용할지 결정하게 됩니다. 마지막으로, 실험적으로 predecessor의 가이드를 받다가 successor에 대한 중요도를 더 높이면서 curriculum replacement (scheduling)를 제안했습니다. 기존것에 대한 ‘안정성’과 새로운 것에 대한 ‘다양성’에 대해서 trade-off를 확률분포로 가정한 것이 인상깊었습니다. 좋은 발표감사합니다.
Takyoung Kim

2021-07-06 20:10

모델 경량화 관련 세미나를 듣게 되어 반가웠습니다. 2019년, 2020년에 등장한 다양한 모델에 대한 비교를 장표로 설명해주셔서 방법론 간 차이가 눈에 잘 들어왔습니다. Bert-of-theseus는 Bert를 타겟으로 등장한 논문이지만 task-specific loss만을 사용하여 모델에 크게 구애받지 않고 적용할 수 있으며, 아이디어를 주장하기 위해 테세우스의 배 이야기를 언급하는 전략이 굉장히 재미있었습니다. 아이디어 구상 순서를 알 수는 없지만 정말 별 거에서 다 영감을 얻는구나..라는 생각도 들었습니다. 2021년 6월에 나온 distillation 관련 논문 중 teacher와 student의 입력 데이터를 동일하게 설정하여 function matching 관점으로 해석하는 주장이 있었는데, 본 논문은 이러한 접근 방식을 end-to-end로 수행하는 형태로 보였습니다. 따라서 2021년 논문의 논리에 따라 bert-of-theseus 역시 오랜 시간동안 distillation을 수행할 때 teacher 모델보다 더 좋은 성능을 보일 수도 있을 것 같습니다. 발표 감사합니다.
Subin Kim

2021-07-07 01:19

금일 세미나에서 다룬 논문은 Theseus Compression for BERT: BERT-of-Theseus입니다. 이는 모델 경량화 방법론에 관한 내용입니다. 보통 언어 모델을 경량화하는 데에는 크게 네 가지 방법으로 quantization, pruning, knowledge distillation, weight sharing이 있는데, 본 논문은 knowledge distillation을 사용한 것으로, 테세우스의 배의 이야기를 아이디어로 삼아 모델을 더 적은 parameter를 가지는 module로 점진적으로 대체하여 경량화를 진행합니다. teacher model인 predecessor와 student model인 successor 간의 distillation으로 pretraining을 진행하고, successor를 가지고 fine-tuning을 수행합니다. 특히, successor에 대한 distillation은 predecessor layer의 일부를 successor로 대체하는 것으로 진행되는데, 베르누이 확률 분포에 의해 대체하여 successor의 parameter를 업데이트하게 됩니다. 이 과정에서 predecessor와 student간에 gradient가 흐르기 때문에 둘 간의 deeper interaction으로 successor를 학습할 수 있게 됩니다. 또한, random하게 layer를 대체하기 때문에 regularization의 효과도 볼 수 있습니다. 본 논문의 가장 큰 특징은 다른 distillation을 적용한 모델과 달리 task specific한 loss function 하나만 사용하였으며 Transformer-specific feature를 사용하지 않아 model agnostic한 방법론으로 작용할 수 있다는 것입니다. 모듈을 점진적으로 대체한다는 아이디어가 신선했고, 방법론의 배경과 전개 과정을 쉽게 설명해주셔서 발표를 재미있게 들을 수 있었습니다. 좋은 발표 감사합니다.
Yunseung Lee

2021-08-08 21:52

금일 세미나에서는 “BERT-of-Theseus: Compressing BERT by Progressive Module Replacing”에 대한 논문을 소개해주셨습니다. 최근 많이 연구되고 있는 Knowledge Distillation에 관련된 내용으로, 본 논문에서는 compression 시, task specific 한 loss function 1개만 사용하면서, model-agnostic한 특징을 가진 compression 방법론을 제안합니다. 테세우스 배의 이야기처럼 teacher model (precessor)의 transformer 구조를 점진적으로 대체하고, task specific loss로 student model (successor)를 만듭니다. Teache model을 구성하는 여러 모듈의 크기를 각각 compression한다는 아이디어가 참신하다고 생각했습니다. 새로운 pretrained 모델을 만들지 않고도 task에서 바로 활용이 가능하다는 점에서 유용한 기법이라는 생각이 들었습니다. 좋은 발표 감사합니다.
Seungwan Seo

2021-07-08 15:50

발표 앞쪽 부분에서 연구 흐름을 정리해줘서 이해하기 매우 용이했습니다. 많은 시간을 들여 공부한 내용을 깔끔하게 전달해줘서 감사드립니다. 일반적으로 모델 경량화의 경우 distillation을 많이 사용하게 되는데 본 논문에서는 큰 사이즈의 모듈을 작은 사이즈의 모듈로 점진적으로 대체하는 기존의 통상적인 distillation과는 약간 다른 구조를 제안하였습니다. 아이디어도 신선했고, 테세우스 이야기를 접목시킨 저자들의 철학도 재미있었습니다.통상적인 distillation은 large model의 logit의 분포를 small model이 학습하도록 진행 됩니다. 결국 output 관점에서의 지식 전달이라고 해석할 수 있는데, 본 연구에서는 pretrained module을 small module로 대체를 하기 때문에 결국 large module의 representation을 small module이 받고, small module의 representation을 large module이 받으면서 small module의 parameter가 학습되는 과정을 거치며 small module이 large module의 hypersapce를 공유하고 representation을 모사할 수 있는 방식이라고 이해했습니다. 또한 세미나 시간에 나온 질문에 대해 발표자분과 이야기를 나누어 보았을 때, large model을 학습하기 위한 시간과 small module을 학습하기 위한 시간이 필요하기 때문에 다른 방법론들에 비해 training time cost가 작지 않아서 reporting을 안 하지 않았을까? 라는 생각이 들었습니다.
Kyoungchan Park

2021-08-10 17:52

BERT와 같이 대용량 모델의 경우 distillation을 활용해 경량화 하면서도 성능을 높게 유지하려는 시도가 많이 이루어지고 있는 것 같습니다. 본 논문에서는 기존의 방식과 다르게 큰 모델과 작은 모델이 서로의 파라미터를 공유하면서 학습하도록 하여 distillation을 진행하였습니다. 논문 제목부터 논문의 방법론까지 재치 넘치는 논문이라는 생각이 들었습니다. 비록 해당 분야에 대해 지식이 많지 않지만 발표를 시작할 때 연구 흐름을 정리해주어서 발표를 따라가기 수월했던 것 같습니다. 좋은 발표 감사합니다.
Jaehyuk Heo

2021-07-11 19:06

오늘은 BERT 모델에 대한 경량화 task로 “BERT-of-Theseus: Compressing BERT by Progressive Module Replacing” 이라는 논문에 대해 소개해 주셨습니다. 기존에 김탁영 석사과정을 통해서 Knowledge Distillation에 대해 배우고 다른 논문을 통해 몇 가지 연구들을 보았지만 오늘 소개해주신 방법은 model-agnostic하다는 것과 distillation loss가 추가적인 제약 조건 없이 하나의 loss function 만으로 distillation이 가능하다는 것에 인상 깊게 보았습니다. 논문 소개에 앞서 Theseus라는 신화를 통해 방법을 소개한 것이 인상깊었고 module 형식으로 predecessor module과 predecessor보다 작은 파라미터를 갖는 successor module를 구성하여 일정 probability를 통해 모듈을 교체해가며 하나의 CE loss로 학습하는 방식이 새로웠습니다. 이 방법을 통해 모델 학습에는 시간이 더 걸리겠지만 기존 방법과 다르게 두 번의 학습 과정이 필요하지 않았고 하나의 loss로 학습하기 때문에 수렴에 있어서도 더 잘 학습되는게 아닐까 라는 생각이 들었습니다. 하지만 이 방법이 가진 문제로는 task specific 한 loss이기 때문에 일반화된 모델을 구성하는 것이 어렵다는 생각이 들었습니다. 이러한 문제점을 Multi task learning architecture에 적용함으로써 해결해 볼 수 있지 않을까 생각이 듭니다. 오늘도 좋은 발표 감사드립니다. 앞으로도 좋은 발표 기대하겠습니다!

« [Paper Review] COCO : Controllable Counterfactuals for Evaluating Dialogue State Trackers

[Paper Review]Semi-Supervised Learning in Auto Speech Recognition »

목록보기

전체 501

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10287	관리자	2020.03.12	0	10287
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 8899	관리자	2020.03.12	0	8899
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10012	관리자	2020.03.12	0	10012
498	New [Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 5	Sunghun Lim	2025.04.24	0	5
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 39	Suyeon Shin	2025.04.21	0	39
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 106	Woongchan Nam	2025.04.16	0	106
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 193	Kiyoon Jeong	2025.04.16	0	193
494	[Paper Review] Reasoning over Time Series with LLMs (13) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 271	Hyeongwon Kang	2025.04.09	0	271
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (16) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 266	Jaehyuk Heo	2025.04.02	0	266
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (15) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 259	Jaehee Kim	2025.04.02	0	259
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (19) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 244	Jungho Lee	2025.04.02	0	244
490	[Paper Review] Data-driven discovery of coordinates and governing equations (18) Hankyeol Kim \| 2025.03.25 \| 추천 0 \| 조회 241	Hankyeol Kim	2025.03.25	0	241
489	[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15) Sieon Park \| 2025.03.19 \| 추천 0 \| 조회 348	Sieon Park	2025.03.19	0	348

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호