Episodic Memory in Lifelong Language Learning
2. Overview
이번 세미나 시간에는 최초로 transformers를 기반으로 NLP 분야에 continual learning을 접목한 “Episodic Memory in Lifelong Language Learning”을 공유하고자 한다. 오늘 발표할 MbPA++는 NLP 분야뿐만 아니라 다양한 분야에서 활발하게 적용 및 연구되고 있는 BERT를 기반으로 5개의 text classification task를 수행하는 class-incremental continual learning 방법론이다. 해당 방법론은 BERT에 episodic memory와 local adaptation을 적용하여 총 5개의 데이터로 33개의 class를 분류하였고, state-of-the-art 결과를 도출하였다. 이번 세미나를 통해 NIPS 2019 poster session에서 발표된 해당 방법론을 공유하고자 한다.
3. 발표자료 및 발표영상
[1] 발표자료
[2] 발표영상
4. 참고문헌
[1] de Masson d'Autume, Cyprien, et al. "Episodic Memory in Lifelong Language Learning." Advances in Neural Information Processing Systems. 2019.
[2] Sprechmann, Pablo, et al. "Memory-based parameter adaptation." arXiv preprint arXiv:1802.10542 (2018).
번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11109
|
관리자 | 2020.03.12 | 0 | 11109 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9744
|
관리자 | 2020.03.12 | 0 | 9744 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10830
|
관리자 | 2020.03.12 | 0 | 10830 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (5)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 48
|
Jaewon Cheon | 2025.06.27 | 0 | 48 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 233
|
Minjeong Ma | 2025.06.07 | 0 | 233 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 319
|
Siyul Sung | 2025.05.31 | 0 | 319 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 316
|
Woojun Lee | 2025.05.20 | 0 | 316 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 287
|
Jinwoo Park | 2025.05.16 | 0 | 287 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 278
|
Hun Im | 2025.05.15 | 0 | 278 |
이번 세미나는 "Episodic Memory in Lifelong Language Learning" 을 주제로 진행되었습니다. 보통 continual learning 은 vision에서 많이 연구되는데, 본 논문은 NLP분야에 적용된 첫 연구로서 큰 의미를 가진다 생각합니다. Continual learning의 기초 개념부터 BERT, 이를 적용한 연구까지 놓치지 않고 들을수 있는 완벽한 발표였습니다. 특히 직관적인 발표자료와 수준높은 설명을 통해 해당 분야에 대한 이해도를 높일 수 있었고 질문에 답하는 발표자의 태도에 배울점이 많다는 생각을 하게되었습니다.
Catastrophic forgetting 문제를 해결하기 위해서 '기억해야할 메모리'를 효과적으로 관리하는것이 핵심입니다. 하지만 논문에서 랜덤 샘플링한 experience replay를 기반으로 parameter update를 진행하는 부분에 의문이 들었고, 이를 개선하면 더 좋은 연구를 할 수 있을것이라 생각합니다. 강화 학습에서는 "prioritized experience replay"를 통해 가장 중요한 메모리들(기억해야할 메모리들)을 기억하는데 이 부분을 적용해보는것이 어떨까 제안해봅니다.
Deepmind 에서 나온 MBPA++에 대하여 리뷰하는 시간을 가졌습니다. 본 연구는 비전 분야에서 활발하게 연구되고 있는 continual learning을 text field에 적용한 첫 번째 논문입니다. 첫 연구라는 novelty는 확실했지만 사용한 방법론들은 BERT, local adaptation, replay buffer와 같이 존재하는 개념들로 문제를 풀고 있어 방법론 자체의 novelty가 큰 연구는 아니라는 생각이 들었습니다. 실험 결과는 기존의 비교모델들이 존재하지 않기 때문에 굉장히 기본적인 방법론들과의 비교만 있습니다. 논문에서 제안하는 방법론의 성능이 비교하고 있는 모델들에 비해 좋은 것은 사실이나 비전 분야의 continual learning에 비하면 많이 떨어지는 것도 사실입니다. 그만큼 아직 발전할 부분이 많이 남았다는 생각이 들었으며 최희정 박사과정의 개인 연구를 통하여 보다 향상된 모델이 등장하면 좋겠습니다.
continual learning을 text classification에 적용한 논문에 대해 발표를 들었습니다. catastrophic forgetting을 해결하기 위한 다양한 방법들을 텍스트 도메인에 잘 적용한 점이 인상깊었습니다. 발표자의 기존 발표들을 통해 다양한 continual learning 방법을 알 수 있었고 오늘도 local adaptation이라는 기발한 아이디어를 알 수 있었습니다. sampling을 통한 local adaptation을 이용하면 모델이 새로운, 혹은 OOD 데이터를 마주했을 때 기존의 메모리를 효과적으로 이용함으로써 좋은 성능을 낼 수 있습니다. 개인적으로 이를 inference에 적용할 때 연산량이 문제가 되지 않을까 생각되는데 이러한 단점을 극복할 정도로 좋은 성능이 나오기 때문에 쓰인 것이라고 생각합니다. 개인연구도 굉장히 흥미로웠는데 해당 모델이 domain adaptation에서 널리 쓰였던 adversarial network의 구조와 유사해 해당 아이디어를 차용해 보는 것도 어떨지 제안드립니다.
딥 러닝 모델에서는 이전 task로 학습한 모델을 새로운 task로 다시 학습했을 때 이전 task에 대한 학습 능력을 유지하지 못하는 catastrophic forgetting 현상이 발생합니다. 이를 해결하기 위한 continual learning에서는 3가지 시나리오가 존재하는데, 본 논문에서는 총 task identifier 없이 통합된 5개의 text classification task를 수행할 수 있는 Class-incremental learning 모델을 제안합니다.
우선적으로 pretrained BERT encoder를 기반으로 token을 embedding 하고 Linear transformation 과 softmax layer로 구성된 task decoder를 기반으로 예측을 시행합니다. 이후 예측 값과 실제 값을 비교해 task decoder의 파라메터를 업데이트 합니다. 이후 BERT의 encoder 구조인 key network를 기반으로 random sampling을 통해 key vector를 encoding 하고 example encoder 와 task decoder의 파라메터를 업데이트 합니다.
Catastrophic Forgetting 문제와 이를 해결하기 위한 continual learning 및 BERT에 대해 학습할 수 있어서 유익하였으며, 다양한 문서 분류 작업을 수행할 수 있는 방법에 대해 알게 되었습니다.
감사합니다.
[이정호]
BERT 와 continual learning 두가지를 함께 접목시킨 논문입니다. 우선 발표자료 처음에 진행되는 continual learning task를 잘 이해하기 쉽게 정리하여, 직관적인 이해를 도왔습니다. 다만 추가적으로 어떤 task 가 각각 어떤 식으로 학습되는지 에 대한 이해도가 떨어져 class 를 증가시키는 방법론은 정확히 어떤 메커니즘인지 파악하기 힘들었습니다. 실험 셋팅은 모든 class를 알고 학습을 진행하는데, 이 방법론이 실제 continual learning 이 필요로하는, 하고자하는 궁극적인 방향과 맞는지 궁금합니다.
어려운 내용의 발표논문을 처음듣는 사람도 비교적 쉽게 이해할 수 있는 발표 구성이였습니다.
이번 세미나는 최희정 박사과정의 Continual Learning에 대한 발표였습니다. Continual Learning은 Task, Domain, Class incremental learning이라는 3개의 시나리오가 존재합니다. 이번에 다룬 논문인 Episodic Memory in Lifelong Language Learning은 Class incremental Learning을 다루었습니다. Yelp, AGNews, DBPedia등 5개의 데이터셋을 하나의 데이터 셋으로 합친 다음 이를 분류하는 모델을 만들어 줍니다. Memory에서는 BERT에서 추출한 CLS 임베딩을 key로 하고, 해당 입력 데이터의 label을 value로 하는 (key, value)를 메모리에 저장합니다. 이렇게 메모리에 저장된 데이터를 랜덤 샘플링하여 학습을 통해 가중치 파라미터를 업데이트하게 됩니다. 해당 논문에서 느낀점은 여러 도메인 데이터를 통합하여 해당 클래스를 분류하는 하나의 통합 분류기라고 느껴졌습니다.
이번 발표에서 continual learning에 대한 전반적인 설명과 직관적인 발표자료를 통해서 이해하기가 매우 쉬웠습니다.
Continual Learning을 세가지로 나누면 다음과 같습니다. 첫째, 5개의 task별로 나눴을때, task별(2개*5 per task)로 예측하는 방식, 이 경우 5개의 task별로 2개의 class를 예측하는 방식입니다. 둘째, 5개의 task별로 나눴을때, domain별(2개)로 예측, 예를 들어 다른 도메인이지만 같은 attribute에 대해서 도메인을 예측하는 task라고 생각할 수 있습니다. 셋째, 5개의 task별로 나눴을때, class별(10개 globally)로 예측하는 방식으로 한번에 모든 class를 예측하는 방식입니다. 본 발표에서는 세번째 방식인 Class incremental learning에 대해서 설명해 주었습니다, Bert embedding에서 100개를 랜덤하게 뽑아서 파라미터를 업데이트를 하고, 예측할때는 memory에서 가장 유사한 k개의 임베딩 벡터를 가지고 local adaptation(fine-tuning)을 진행한 후 예측을 하게 됩니다. 본 연구에서는 계산 복잡도가 높아 pre-training은 제외하는데, BERT 모델이라는게 pre-training domain에 많이 과적합되어 있어서 이 부분을 무시하고 연구가 진행되어야 하는지 개인적으로 비판을 해봅니다.
금일 세미나 시간에는 NIP2019에서 딥마인드에서 발표한 “Episodic Memory in Lifelong Language Learning”란 주제로 NLP분야에서의 continual Learning에 대한 연구를 다루어 보았습니다. 일반적으로 순차적인 과제들을 학습 시, 계속해서 새로이 학습하는 대신에 효율적으로 학습 할 수 있는 과정을 의미합니다. 이러한 continual Learning분야에서는 새로이 task가 정의되고 기존의 학습모델을 재활용할 때, 데이터 분포의 이동(shift) 등의 이유로 그 성능 저하가 발생하기 쉬운데, 이러한 문제를 catastrophic forgetting이라고 정의합니다. 따라서 해당 분야에서는 이러한 문제점을 해결하고자 다양한 연구가 수행되어 오고 있습니다. 해당 발표에서는 순차적인 과제의 학습을 하는 방식에 따라서 크게 세가지로 나누고 있는데 Task-incremental Learning, Domain-incremental Learning 그리고 본 논문에 해당하는 Class-incremental Learning으로 나뉜다고 합니다.
본 논문은 이러한 continual Learning으로 제안하는 episodic memory model을 NLP분야의 task에 적용을 시도하였습니다. 각각 Question Answering 과 document classification에 Class-incremental Learning 방식의 task에 적용하여 본 논문에서 제안하는 Episode 단위의 Memory module을 통해 제안하는 Local Adaptation과 Sparse experience replay의 유효성을 보여주었습니다. 특히, example의 10%를 memory 모듈을 keeping하면서도 성능을 유지할 수 있다는 것은 인상적이었지만, 실제 label정보와의 KNN을 통해 Local Adaptation을 수행한다는 방법자체가 과연 타당한 학습인지는 아직 의구심이 들기도 합니다. NLP분야에서 하나의 깃발로 선행연구의 가치는 충분한 연구라고 생각이 됩니다. 휴가기간에도 불구하고 논문세미나를 위해 준비를 한 최희정 학생에게 감사의 인사 전합니다.
Vision 분야보다 상대적으로 발전이 안된 NLP에 continual learning중 class-incremental learning을 적용시킨 논문입니다. 기본적인 bert 구조에 memory 개념을 도입하여 sampling한 여러 domain 데이터에 대해 KNN을 통한 가까운 feature 몇 개를 같이 transfer learning하여 여러 도메인에 강건하게 만드는 것입니다. 해당 방법론에 대하 몇가지 의문이 있는데, 애초에 여러 domain의 클래스들의 node를 미리 정하는 것이 continual learning의 취지에 맞는가 하는 의문이 있습니다. 또한, 메모리를 통해 똑같은 모델 구조로 KNN을 통해 가까운 feature인 데이터들을 뽑고 다시 그 데이터들과 같이 학습하는 과정은 계산량을 크게 증가시킨다고 보았습니다. continual learning을 알기 쉽게 설명해준 발표자에게 감사드리며, 발전이 많은 분야인 만큼 좋은 논문으로 이어지기를 바랍니다.
Text 도메인에서의 continual learning을 적용한 첫 연구인 MBPA++에 대한 발표였습니다. 매번 continual learning에 대해 발표를 듣고 있지만 기본적인 개념부터 직관적인 그림으로 설명해주어 해당 분야에 대한 이해도가 많이 높아진 느낌이 들었습니다. 발표 논문에서 제안한 방법론 자체는 그 의도가 명확하다는 장점과 text 도메인에의 첫 적용이라는 novelty를 가지지만 단점 또한 명확하지 않았나 하는 생각이 들었습니다. 우선 처음부터 늘어날 class의 개수를 알고 시작한다는 점이 continual learning의 practical usage를 해치는 가정이라는 생각이 들었으며, 단순 memory를 사용하여 model의 continuity를 유지한다는 점은 multitask 모델대비 가질 수 있는 continual learning의 장점을 무력화하는 접근법은 아닐까 하는 생각도 들었습니다. 오늘 세미나에서 이야기가 나온 것처럼 sampling 방식을 고도화하거나 해당 연구가 가지는 나이브한 가정들을 보완하는 연구를 진행한다면 좋은 결과가 있을 것 같습니다. 추가로 앞서 언급한 명확한 단점에도 불구하고, 새로운 방식으로 한 연구를 완성시킨 저자들의 노력이 해당 분야에 큰 contribution이 될 수 있겠다는 생각도 들었습니다.
최희정 석박통합과정의 세미나 발표를 들었습니다. 오늘 발표해주신 논문은 2019년에 NeuralIPS에 발표된 논문으로 최희정 석박통합과정이 계속해서 연구 하고 계셨던 Contiual Learning 관련해 BERT 를 적용했던 연구였습니다. 먼저 해당 논문에 대해서 발표하기 전에 BERT 관련해서 다시 한 번 리마인드 시켜주신 것이 매우 좋았습니다. 발표자료 또한 이해하기 매우 쉬웟습니다. Catastrophic Forgetting 문제 해결은 매우 중요한 문제이기 때문에 이 분야와 관련해서 좋은 연구들이 많이 나오면 좋겠습니다. 또한 기존의 Continual Learning 의 경우 대부분 image 데이터에 대한 연구 결과가 많았는데 text 쪽에 적용한 경우를 소개해주셔서 흥미로웠고 많은 도움이 되었습니다. 감사합니다.
저번 발표에 이어서 continual learning에 대한 논문을 발표해주었습니다. 해당 분야에 대해서 기초 개념부터 다시한번 그림과 함께 설명해주어서 이해하기 쉬웠습니다. 해당 논문은 다섯가지 데이터셋에 대해서 순차적으로 학습을 하는 task였고, 데이터셋에 대해서 버트를 이용한 추가적인 임베딩을 사용하여 메모리 네트워크의 형식처럼 만들어낸 셋에서 샘플링을 통해 학습 성능을 향상시키고자 한 것이었습니다. 여태까지 논문에서 느낀것은, continual learning에는 정확하게 정의되는 , 보편적으로 사용되는 문제의 형태는 많지만 딱 정해져 있는것은 아니라고 느껴졌습니다. 그래서 아이디어에 맞게 문제를 변형하고 정의할수 있겠다고 생각했습니다. 그 속에서 이전 task의 정보를 보존하면서 새 task를 학습하도록 구조를 만든다면 의미있는 연구가 되지 않을까 생각해보았습니다.
MBPA++모델은 텍스트를 class들로 분류할 때 사용하는 모델로서, 워드 임베딩시킨 input을 encoder와 decoder에 넣어 class을 예측하는 모델입니다. 이때, BERT encoder 구조인 key network를 기반으로 각각의 key 들에 해당하는 value를 구하고 key와 value 값이 포함되어 있는 memory에서 샘플링한 experience replay를 기반으로 encoder와 decoder의 파라미터들을 업데이트하는 형식입니다. Inference 과정에서는 k-NN을 통해 memory에서 샘플링한 example들을 기반으로 local adaptation하는 특징이 있습니다.
CLS를 이용해 좀더 용이하게 분류할 수 있는 것과 experience replay를 통해 모델의 성능을 높이는 방법을 배울 수 있었습니다.