번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11519
|
관리자 | 2020.03.12 | 0 | 11519 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 10163
|
관리자 | 2020.03.12 | 0 | 10163 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 11242
|
관리자 | 2020.03.12 | 0 | 11242 |
515 |
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (1)
Hyeongwon Kang
|
2025.07.29
|
추천 0
|
조회 90
|
Hyeongwon Kang | 2025.07.29 | 0 | 90 |
514 |
[Paper Review] Recent Research Trends in Video Anomaly Detection (2)
Jaehyuk Heo
|
2025.07.27
|
추천 0
|
조회 95
|
Jaehyuk Heo | 2025.07.27 | 0 | 95 |
513 |
[Paper Review] Introduction to PINN (Some basic concepts and research directions) (9)
Hankyeol Kim
|
2025.07.18
|
추천 0
|
조회 169
|
Hankyeol Kim | 2025.07.18 | 0 | 169 |
512 |
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10)
Sieon Park
|
2025.07.14
|
추천 0
|
조회 204
|
Sieon Park | 2025.07.14 | 0 | 204 |
511 |
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9)
Subeen Cha
|
2025.07.10
|
추천 0
|
조회 180
|
Subeen Cha | 2025.07.10 | 0 | 180 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 363
|
Jaewon Cheon | 2025.06.27 | 0 | 363 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 414
|
Minjeong Ma | 2025.06.07 | 0 | 414 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 38
|
Minjeong Ma | 2025.06.02 | 0 | 38 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 38
|
Kiyoon Jeong | 2025.06.02 | 0 | 38 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
이번 세미나에서는 QA를 위해서 TRANSFORMER 를 활용하여 좀더 빠른 모델을 구현했습니다. 특히 QA Task 에는 경량화 속도가 매우 중요하다고 생각하는데, 기존에 있었던 경랴화 기법들을 정리하면서, 개념을 정리 할 수 있었습니다. 최근에 연구실에서 많이 진행 되었던 distilation 방식으로 접근하면서, 성능과 속도의 trade off 관계도 얘기했습니다. deformer 에서는 연산량을 줄이기 위해 KD Loss 와 Layerwise similarity loss 를 사용하여 distilation 을 이용했습니다. KD 는 여전히 다양한 분야에서 필요한 기법임을 느낄 수 있었고, 이를 QA에서 잘 활용했다 생각합니다.
금일 세미나는 모델 경량화의 관점에서 제안된 BERT 변형 논문에 대해 다루었습니다. 딥러닝 모델은 크기가 큰 모델이 작은 모델에 비해 일반적으로 좋은 성능을 보입니다. 따라서 몇몇 모델은 실제 산업 서비스에 적용하기에 너무 큰 사이즈를 갖고 있습니다. 그런 관점에서 모델 경량화에 관한 연구는 딥러닝을 현실로 이어주는 역할을 한다고 생각합니다. 특히 오늘 다룬 논문에서의 task는 QA task로 상용화 되기 위해서는 모델의 경량화가 필수적이라고 생각됩니다. 본 논문에서 제안한 모델은 앞 단에서 question과 context를 나누어 연산한 후 뒷 단에서 다시 합치는 방식을 사용하여 연산 시간을 단축 시켰습니다. 또한 그렇게 분리해서 학습을 진행하였을 때 오히려 representation이 잘 학습되어 모델이 경량화 되었음에도 성능 하락이 적었다고 이해했습니다. 앞선 발표에서는 성능적인 측면에서 BERT를 다루었고 이번 세미나에서는 경량화 측면에서 BERT를 다루어 2번의 세미나 동안 다양한 시각에서 BERT에 대해 고민해볼 수 있었던 것 같습니다 .좋은 발표 감사드립니다.
금일 세미나는 “DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering”에 대한 리뷰로 진행되었습니다. DeFormer는 BERT기반의 QA 모델로서, 경량화된 모델을 제안합니다. 기존에 BERT를 사용하는 Question Answering 모델은 정답의 시작과 끝부분의 토큰의 위치를 예측하는 방식으로 진행됩니다. 꽤 무거운 기존 모델을 경량화하기 위해 DeFormer는 self attention layer를 question, context self attention으로 나누어서 진행하는 방식으로 개선합니다. Tranformer의 하위 layer에서는 question 과 context를 독립적으로 연산하지만, 상위 layer에서는 2가지 정보를 concatenate하여 처리함으로써 두 정보 간의 상호작용도 고려합니다. 또한, 기존의 transformer weight를 사용할 수 있기 때문에 추가적인 pretraining이 필요하지 않다는 장점도 존재합니다. Question Answering task에서 활용되는 경량화 모델에 대해 알 수 있어서 유익했으며, 지난번 김수빈 연구원의 발표에 이어서 attention 부분에서의 수정을 통해 모델을 경량화했다는 점이 인상적이었습니다. 좋은 발표 감사합니다.
이번 세미나는 Deformer: Decomposing pre-trained Transformers for faster question answering에 대해서 발표해주셨습니다. 발표자 분께서는 자연어 처리 QA task에 있어서 모델 경량화가 필수라고 언급하며 먼저 기존 경량화 기법들을 설명해주셨습니다. 먼저 기존 Compression 기술에는 Low rank approximation, Model Weights Pruning이 있으며, Distilation 기술은 BERT를 student model로 distilation을 수행하거나, DistillBERT, 새로 pretraining을 수행하는 방법이 있다고 언급하면서 성능과 속도 면에서의 tradeoff를 이야기해주었습니다.
본 논문에서 제시하는 Deformer라는 아키텍쳐는 question과 context를 하위의 layer에서 독립적으로 인코딩한 후 상위 layer에서 두 중간 output을 합쳐 나머지 인코딩을 수행합니다. 일단 기존의 길이가 n이던 question + context를 각각 분리해서 각각에 대한 임베딩을 먼저 구함으로써 연산량을 줄여주고, 이를 뒤에 self-attention layer에서는 concat하여 사용한다는 점이 매우 신선하고 간단하면서도 효과적이라는 생각이 들었습니다. 뿐만 아니라 기존 loss인 question answering task에 Knowledge distillation loss과 Layerwise representation similarity loss를 새롭게 추가하여 teacher 모델에 근사하게 학습되도록 유도한 것까지 매우 깔끔한 흐름으로 구성된 것 같았습니다. 좋은 발표 감사합니다.
이번 세미나에서는 DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering에 대해서 발표해 주셨습니다. Transfomer의 모델을 여러 구조로 분해(decompose)하여 feature-based distillation방식으로 이루어진 DistillBERT가 현저히 낮아지는 성능을 보완하기 위해 제안된 방법입니다. Pretrained BERT를 가져와서 입력데이터를 두개로 나눠 학습시키는 구조를 가지고 있으며, Loss function의 정의는 Q&A의 start, end token의 likelihood를 고려하고 teacher-student 간의 response-based distillation, feature-based distillation이 추가되었습니다. Loss function에 대해 단계적인 tuning이 아닌 end2end learning의 형태를 취했다는 점에서 auxiliary losses가 main task supervision에 나쁜 영향을 줄 수 있다는 문제도 존재할 것 같습니다. 좋은 발표 감사합니다.
본 세미나에서는 Deformer라는 모델을 소개해주셨으며, Transformer와 QA Task에 대한 본질적인 속성을 통해 1%의 성능 Loss를 감수하면서 4배나 빠른 성능을 보여주었습니다. 이 때 Transformer의 속성은 Encoder에서 낮은 층의 레이어는 local, syntatic한 관점에서 Encoding을 진행하며, 높은 층의 레이어는 global, semantic한 관점에서 Encoding하는 것이며, QA의 속성은 Input이 Question과 Context가 함께 사용된다는 점입니다. QA의 Input에 질문과 문맥이 같이 들어가는 이유는 질문과 문맥의 연관성을 Self-Attention으로 파악하기 위함인데, 낮은 층에서는 의미론적인 인코딩이 진행되지 않으니, 각 부분에 대한 Encoding을 분리하고 실질적으로 질문 관점에서 문맥을 이해하고자 할 때는 의미론적인 인코딩을 진행하는 것입니다. DST나 Text-to-SQL에서도 QA와 같이 입력 값이 질문과 질문의 대상인 문맥이 함께 활용되는데 Deformer의 구조를 취한다면 성능의 향상은 확실하지는 않으나 속도 면에서는 크게 발전할 수 있을 것 같습니다. Deformer의 속도 향상에 더해 성능 향상이 이루어질 수 있다면 비슷한 입력값을 갖는 여러 Task에서 큰 발전을 이룰 수 있지 않나 싶습니다. 좋은 논문 소개해주셔서 감사합니다.
오늘 세미나에서는 Distillation을 이용하여 Question Answering Model을 경량화 하는 DeFormer에 관해 소개해 주셨습니다.
Transformer 내부의 Self-Attention은 Input Sequence Length에 대한 Quadratic Complexity를 가지기 때문에 Sequence Length가 길어질 경우에 Inference 속도가 감소하는 단점이 있습니다. 이러한 단점은 Real-Time을 요구하는 QA와 같은 Task에서 특히 문제가 될 수 있습니다.
Deformer는 이러한 단점을 해결하고자 Sequence Length를 줄이며 성능을 유지할 수 있도록 하는 전략을 선택하였습니다. Transformer Encoder의 Low Module을 두 개의 Sub-Module로 분할하여 Question과 Context를 각각 Input으로 받은 뒤, High Module에서 해당 정보를 취합하여 QA Task를 수행합니다. Question과 Context를 분리하였기 때문에 두 Sequence를 합친 Quadratic 연산을 각각의 Sequence에 대한 Quadratic 연산으로 대체할 수 있고, 이로 인해 감소되는 연산량을 고려하여 Context에 대한 Sequence Length를 증가시킬 수 있습니다.
세미나의 서두에서 언급된 가정 사항인 BERT는 Low Layer에서 Syntactic Information을 처리하고, High Layer에서 Semantic Information을 처리한다는 점은 다른 의견을 제시하는 논문 역시 존재하여 완전하게 동의하기는 어렵지만, 간단한 방법으로 연산량을 줄이며 성능을 유지할 수 있다는 점은 신선하게 느껴졌습니다. 좋은 발표 감사합니다.
금일 발표는 "DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering"라는 주제로 진행되었습니다. 본 발표에서는 BERT의 구조를 변경하여 Question Answering task, sentence-pair classification task 등 sentence-pair가 input이 되는 task를 위한 모델 경량화 방법론인 DeFormer가 소개되었습니다. DeFormer는 text를 2개의 segment로 나눈 후, 이를 encoding layer의 하위 layer에서는 독립적으로 수행하여 local 한 정보를 처리하고, 상위 layer에서는 이 둘을 합친 후 original model과 동일한 구조로 나머지 encoding을 수행하여 global한 정보를 처리하는 구조입니다. 해당 구조가 DeFormer에서는 모델 경량화를 위해 제안되었지만, 제가 연구하고 있는 이상치 탐지에서는 multi-resolution으로 데이터의 특징을 추출하는데 적용될 수 있지 않을까하는 생각이 들었습니다. 최근 연구실 세미나에서 모델 경량화에 대한 내용이 자주 다루어지고 있는데 해당 주제가 산업공학과와 관련이 있는 주제라고 생각이 되어 금일 발표도 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.
금일 세미나는 Question & Answer task에서 BERT를 경량화 하고 속도를 향상시키기 위한 연구인 "DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering" 논문을 소개해 주셨습니다. BERT 모델은 다양하고 복잡한 패턴을 학습하기 위하여 큰 크기로 개발되어 많은 파라미터를 갖고 있습니다. 이 때문에 모델이 많은 용량을 차지할 뿐만 아니라 Inference 속도가 느리다는 단점을 갖고 있습니다. 기존 Distillation, Compression 방법들이 이러한 문제를 해결하기 위하여 사용되고 있지만 성능, 그리고 속도 측면에서 기대에 못 미치고 있습니다. 이를 해결하기 위하여 DeFormer는 최대한 아키텍처 변경 없이 BERT 모델의 Q&A task 성능을 향상 시킬 수 있는 방법을 제시합니다. DeFormer는 Question 부분과 Answer 부분의 텍스트를 따로 분리하여 Encoding하는 방법을 제시합니다. 이를 통해서 Transformer의 Self-Attention이 문장의 길이가 길어질 때 발생하는 용량문제 및 속도문제를 완화합니다. 또한 상단에는 이를 취합할 수 있도록 통합 Transformer를 적용함으로써 성능이 하락하는 것을 최대한 방지하였습니다. 이 방식은 Q&A 처럼 두개의 Context를 활용할 때 효과적으로 사용가능하며, 구조 또한 단순하기에 적용하는데 큰 시간이 소요되지 않습니다. 다만 상단의 Transformer는 결국 Question과 Answer의 Context token을 모두 입력으로 활용하므로, 용량을 많이 차지하며 큰 길이의 입력은 학습 및 추론할 수 없다는 BERT의 단점을 그대로 갖고 있습니다. 예전에 보았던 reformer와는 색다른 경량화 방법이었으며 효과적인 구조 변경 방법을 제시하여 매우 흥미로웠습니다. 좋은 발표 감사합니다.
BERT가 많은 분야에서 좋은 성능을 보이고 있지만 모델이 너무 큰 관계로 부담스러운 연산량을 가지고 있습니다. 이에 BERT를 경량화 하면서 성능을 유지하고자 노력하는 연구들이 지속적으로 이루어지고 있습니다. 금일 세미나에서 발표해주신 "DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering" 논문 또한 이러한 연구 흐름과 맥락을 같이 하고 있습니다. QA 분야는 BERT의 inference time을 그대로 가져가기에는 서비스 측면에서 문제가 많을 것으로 예상되어 반드시 이러한 연구가 수행되어야 하지 않나 생각합니다. 저자들은 BERT의 하위 layer에서 구조를 쪼개어 self-attention에 들어가는 quadratic cost를 크게 줄였습니다. 이후 상위 layer에서는 다시 전체 정보를 다 사용할 수 있도록 기존의 BERT 구조를 그대로 사용합니다. 이같은 아이디어는 BERT의 하위 layer에서는 local한 정보를 얻고, 상위 layer에서는 global한 정보를 얻는다는 것에 기인합니다. 간단한 아이디어로 이루어진 직관적인 연구였으며, 동시에 고민을 해보면 조금씩 더 개선할 부분이 있지 않을까 생각이 들었습니다.
금일 세미나에서 소개된 모델은 DeFormer로 기존의 Transformer 모델을 경량화하고자 하였습니다. 기존에 경량화를 위한 연구는 compression 방법이랑 distillation 방법론이 주로 사용이 되었는데, 경량화로 인한 accuracy 감소 문제, 그리고 경량화 모델도 여전히 pre-training 단계가 expensive하다는 한계점이 있었습니다. QA 태스크를 수행할 때, 특히 on-device나 추론 속도 등의 문제로 모델 경량화가 중요한데, DeFormer는 question과 context를 하위 layer에서 독립적으로 인코딩한 후 상위 layer에서 그 둘을 합쳐 인코딩을 진행하고자 하였습니다. 즉, 하위 layer에서는 context, question을 독립적으로 local한 정보를 학습하는데, 상위에서는 global한 정보를 얻게 됩니다. 특히, context의 representation을 따로 수행하는데, 하위 k개의 layer에서 context를 offline으로 처리한 후, output을 저장해두고, 다른 쪽의 하위 k개의 layer는 question을 처리해 text representation을 불러옵니다. 그 이후에는 각각의 output을 concatenate하여 기존 transformer encoder처럼 인코딩을 수행합니다. 그리고 efficiency 하락을 최소화하기 위해, auxiliary supervision loss를 추가해 task specific supervision loss와 함께 loss를 계산하였습니다. 발표자분께서 언급해주신 것처럼, 성능 향상을 보인 것은 아니지만, 최소한의 성능 하락 폭, 시간 감소 및 메모리 축소 등에 있어서는 실제 서비스에서 활용 가치가 있는 방법론인 것 같습니다. 신기했던 점은 하위 layer는 분리하여도 성능하락이 없었는데, 상위 layer는 분리했을 때 성능 하락에 큰 영향을 미쳤다는 점입니다. 이렇게 성능을 저하시키지 않는 수준에서 모델의 일부분을 독립적으로 다른 기능을 수행할 수 있게 처리한다는 아이디어가 신선했습니다. 발표 잘 들었습니다. 감사합니다.
이번 세미나는 빠른 Question answering을 위해 pre-trained transformer 기반의 모델 DeFormer에 대한 내용으로 진행되었습니다. DeFormer는 pre-trained Trnasformer-based model을 encoder layer들을 상위 layer, 하위 layer로 나누어 하위 layer만을 question과 context에 대해 decompose하고, 상위 layer에서 이를 concate하여 학습한다는 특징을 가집니다. 하위 layer는 question과 독립적인 정보를 encoding하고, 상위 layer는 question과 context를 모두 고려한 정보가 encoding되는 특징을 가지기 때문에,하위 layer의 경우 decompose하여도 local 정보를 encoding하는데는 크게 문제가 없어, 이러한 구조의 변형은 전체적인 모델 성능 저하를 최소한으로 하면서 기존 transformer보다 계산 복잡도를 줄일 수 있다는 장점을 가집니다. model의 각 모듈이 어떤 역할을 하는지 고려하여 이를 반영한 간단한 decomposition을 통해 성능을 유지하면서 속도를 높인 점이 인상 깊습니다. 좋은 발표 감사합니다.
이번 세미나에서는 2020년 ACL에서 발표한 “DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering”이라는 논문에 대에서 소개해 주셨습니다. 오늘 발표를 통해서 인상 깊은 점은 서로 다른 입력 문장을 각각 transformer encoder layer에 보내고 이를 다시 상위 Layer에서 합치는 과정과 knowledge distillation 방식을 사용하여 학습하는 과정 그리고 마지막으로 LRS (Layerwise Representation Similarity) loss 입니다. QA task를 대상으로 모델이 구성 되어 있었기 때문에 question 과 context를 나누어 하위 레이어에서는 서로 다른 layer를 통과하였습니다. 결과적으로 question 과 context를 나누어 보내기 때문에 연산 복잡도가 낮아지고 inference 시간 또한 기존 BERT 모델에 비해 크게 줄어든 것을 볼 수 있었습니다. 오늘도 좋은 시간을 만들어 주셔서 감사합니다. 앞으로도 좋은 발표 기대하겠습니다.
따로 연구 아이디어를 생각하다 deformer와 유사한 구조를 떠올린 적이 있었습니다. BERT의 lower layer는 가까운 relation 또는 syntactic representation을 나타낸다는 식의 이전 연구가 motivation이었는데, 본 논문에서는 lower layer의 representation 간 분산까지 시각화하면서 논리를 구체화시키는 과정이 굉장히 배울 점이 많았습니다. Distillation을 사용하긴 했지만 이는 성능을 높이기 위한 보조 수단인 것 같고, context와 question을 독립적으로 인코딩하면서 성능의 손실을 최소화하는 것이 핵심인 것 같습니다. BERT의 입력이 [SEP]으로 구분되어 들어가는 형태의 nlp task 중 본 논문을 기반으로 많은 variant가 나올 것 같다는 생각이 들었습니다. 학습 및 추론 시 파라미터를 줄이는 연구에 관심이 많아 발표해주시는 논문 재미있게 들었습니다. 감사합니다.
금일 세미나는 DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering 논문에 대해 다뤄주셨습니다. QA task에 적용하는 BERT 적용 방법론입니다. 기존의 BERT모델은 매우 큰 규모를 갖고 있기에, 이를 경량화하는 Model compression 측면 또는 Knowledge distillation 측면에서 다양한 시도들이 있어왔습니다. 본 모델은 기존의 Encoding 과정을 변형하는 시도를 합니다. Question과 Context를 분리해 Encoding하는 과정을 서두에 별도로 진행하는 것 입니다. 이렇게 함으로써, 질문과 답변에 대한 각각의 Representation을 더욱 깊히 학습할 수 있게 됩니다. 그리고 이를 다시 concat해 전체적인 관계성을 학습하게 합니다. 더불어서, 상대적으로 sequence 길이가 긴 context에 대한 집중적인 연산이 먼저 이루어진 결과를 활용하기 때문에, 상대적으로 이후 학습에서 소요시간을 줄일 수 있고, 기존의 사전 훈련 모델의 weight를 그대로 활용할 수 있게 됩니다. 이러한 점이 결국, 경량화 측면에서 효과를 거둘 수 있는 것으로 보입니다. 발표의 후반부에 설명해주셨듯이, 이러한 분리된 상/하위 레이어 구조가 자연스레 지역적 / 전역적 representation을 학습하게끔 하는 점 또한 인상 깊었습니다. 결론적으로, 경량화에 따른 Accuracy하락은 최소화하면서도 새로운 pre-training 필요성을 낮출 수 있었습니다. 상/하위 레이어로 분할하고, 이를 Context, Question의 독립적인 학습에 활용하는, 어찌보면 단순할 수도 있는 접근으로 기존의 한계점들을 다소 해결해나가는 모습이 인상적이었습니다. 모델 경량화 측면에서 또 다른 새로운 접근을 소개해주신 발표자님께 감사드립니다. 덕분에 짧은 시간 동안 방법론에 대해 잘 이해할 수 있었습니다. 감사합니다.
이번 세미나는 트랜스포머를 경량화하여 QA task를 진행한 Deformer를 주제로 진행되었습니다. QA task는 서비스에 사용하기 위해서 answering하는 시간 단축이 필수인 task입니다. 하지만 기존에 경량화를 진행하면 accuracy가 크게 감소하고 경량회된 모델도 많은 pre-training을 해야하는 단점이 있었습니다. 따라서 본 논문은 question과 context를 하위의 layer에서 독립적으로 인코딩한 후에 상위 layer에서 두 output을 합쳐 나머지 인코딩을 수행하는 방식을 제안하였습니다. 두 layer로 나눔으로 인해 context의 pre-computing을 하여 시간이 단축이 되고 새로운 pre-training 없이, 기존의 pre-trained된 transformer의 weights를 바로 사용할 수 있습니다. 발표 마지막에 모델 경량화에 있어서 두 가지 관점에 대해서 소개해주셨습니다. 모델 경량화에 주 목적은 시간 단축이 목적이기 때문에 성능의 하락은 어쩔 수 없다고 가정하지만 성능 하락의 최소화도 main contribution이 될 수 있다고 말씀해주셨습니다. 모델 경량화에 있어서 다른 관점을 가질 필요도 있을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering라는 논문을 주제로 발표를 진행해 주셨습니다. Bert의 경우 성능이 좋은 반면 on-device에 활용을 하기에는 경량화가 필수적입니다. 관련된 연구가 많이 진행되고 있는데 그 중에서도 오늘 발표를 해주신 DeFormer의 경우 QA task에 있어서 기존에 (context + question)를 대상으로 하는 attention 연산 대신, context와 question을 독립적으로 처리(attention)하여 Bert의 상위 layer에서 합쳐 다시 attention을 수행하는 방식으로 모델을 학습하게 됩니다. 이 때 context를 offline으로 처리하여 학습에 사용하게 되는데, 확실히 transformer 구조의 앞단에서 semantic한 측면보다는 언어 구조적인 특성을 학습하기에 이러한 학습 방식으로도 성능 하락이 적다는 측면에서 굉장히 흥미로웠습니다. 개인적으로 문맥을 이해하는 데에 있어서 DeFormer가 이용한 이러한 특성을 저 또한 이용해보면 좋을 것 같다는 생각을 했습니다. 좋은 발표 감사합니다.
이번 세미나시간에는 지난 세미나 시간에 이어서 transformer 기반의 DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering논문을 다루어 보았습니다. 연속적으로 NLP 학습모델을 다루고는 있지만 이전 세미나시간과 달리 이번 논문의 주제는 경량화에 초점을 맞추고 있습니다. 경량화를 위해서 해당 연구에서는 분리된 구조의 하위 layer는 question과 context text를 독립적으로 다루었으며, 분리되지 않은 상위 layer에서는 question과 context text를 concatenate하여 함께 처리하였습니다. 구두만으로는 설명이 어려울 수도 있었지만 친절한 예시를 통한 슬라이드 장표를 통해 비교적 쉽게 이해할 수 있었습니다. 논문의 결과에서는 기존 BERT 모델과 DeFormer BERT의 성능 하락대비 최대 3배이상의 시간단축을 보여줌으로써 연산의 효율성을 어필하고 있었습니다. 다만 그 기준이 되는 모델이 최근 제안되는 모델이 아닌 BERT base모델로 기준으로 하고 있습니다. 실제로 현업에서 서비스를 목적으로 디바이스 단계에서 모델을 적용하는 과정에서 모델의 경량화는 매우 중요한 사안이라고 생각됩니다. 그런 측면에서 금일 세미나의 주제는 매우 흥미로웠고 앞으로 계속해서 팔로우업 할 필요가 있는 분야라고 생각됩니다. 좋은 세미나시간을 채워준 발표자에게 감사의 인사 전합니다.