[Paper Review] Lifelong Language Learning with Effective Generative Replay

Paper Review
작성자
Heejeong Choi
작성일
2020-06-13 04:33
조회
4409
[ 발표 요약 ]

1. Topic

Lifelong Language Learning with Effective Generative Replay

2. Overview

이번 세미나 시간에는 GPT-2를 기반으로 lifelong language learning에서 SOTA 성능을 도출한 “LAMOL: Language Modeling for Lifelong Language Learning”과 효과적인 샘플링의 접목을 통해 replay-based continual learning 모델의 성능을 향상시킨 “MIR: Online Continual Learning with Maximally Interfered Retrieval”을 공유하고자 한다. 먼저 LAMOL은 text generation에 특화된 GPT-2를 기반으로 5개의 text classification task와 decaNLP의 5가지 task를 QA task의 형태로 수행하는 lifelong language learning 방법론이다. 세부적으로 해당 방법론은 GPT-2를 기반으로 generative replay를 구축하여 이전 tasks의 데이터 분포를 반영하였다. 다음으로 MIR은 기존 replay-based continual learning 모델의 랜덤 샘플링 방법을 보완하기 위해 제안되었다. 해당 방법론은 loss 변화를 기반으로 한 샘플링 방법을 통해 보다 중요한 샘플을 추출함으로써 효과적으로 이전 task의 정보를 유지하고자 한다. 이번 세미나를 통해 다음 2가지 방법론을 공유하고자 한다.

3. 발표자료 및 발표영상

[1] 발표자료 (첨부파일 참고)

[2] 발표영상



4. 참고문헌

[1] Sun, Fan-Keng, Cheng-Hao Ho, and Hung-Yi Lee. "LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING."

[2] Aljundi, Rahaf, et al. "Online continual learning with maximal interfered retrieval." Advances in Neural Information Processing Systems. 2019.
전체 11

  • 2020-06-13 04:12

    이번세미나는 Lifelong language learning with effective generative replay을 주제로 진행되었습니다. 대학원 입학후 Continual learning에 대해 다양한 세미나를 들으며 새로운분야에 대해 알게되었고, 최희정 박사과정의 세미나를 통해 지속적으로 관련 개념에 대해 많이 배우고있습니다. Continual learning에 있어 가장 중요한것은 continual learning이 정의되는 상황과 기본가정들이라 생각합니다. 먼저 제가 생각하기에 가정되는 상황과 큰 범위에서의 개념은 다음과 같습니다.

    1) 여러가지 데이터셋이 존재할 때 '순차적인 학습'이 필요한 경우를 가정함

    2) 예를들어 5가지의 순차적인 데이터가 있는 상황에서 학습이 진행되는 동안 이전에 학습된 지식들이 잊혀지는 catastrophic forgetting 상황이 발생

    3) 이 경우 이전에 학습한 지식을 잊어버리지 않도록 학습하기위해 필요한 방법론

    그동안 Continual learning에 대해 완전히 이해하지 못했으나, 적어도 이 3가지의 가정이 성립하는 상황을 이해할 경우 자칫 CL과 혼동될 수 있는 Multitask learning , meta-learning, N-shot learning과의 미묘한 차이들을 받아들일 수 있다고 생각했습니다.

    오늘 세미나에서는 NLP domain에서 Bert를 베이스로 했던 MBPA++ 이후에 좋은 성능을 기록한 LAMOL approach에 대해 다루고, Image domain의 MIR approach와 개인연구의 흐름으로 진행되었습니다. 조금 재미있다고 생각한 아이디어는 여러가지 task의 데이터들을 QA로 병합하고 GPT2를 베이스로 하여 학습한 부분입니다. 조금 더 자세히 말하자면 text classification이라는 동일한 task를 학습하는것이 목적이지만, 각 데이터들의 형태를 맞춰주기위해 가장 일반화된 형식중 하나인 QA task로 모델링 했으며 단일 모델로 학습을 진행했습니다. 이러한 학습의 형태가 T5와 비슷하다는 생각을 했습니다 (하지만 T5는 task를 text frame으로 바꿔주는데 중점을 두고있기때문에 본질적으로는 다릅니다) 결국 언어라는 특성을 공유하고있기때문에 QA라는 하나의 task로 병합이 가능하며 기존의 image domain에서 CL과는 차이가 있어 매우 흥미로웠습니다.

    그 후에 이를 개인연구에 적용하기위해 사용한 방법론인 MIR approach 또한 직관적이라 생각했습니다. 결국 새로운 task로 학습한 후 LOSS를 criteria로 삼아 중요한 지식과 비교적 덜 중요한 지식을 샘플링하여 학습한다는 아이디어입니다.

    사실 가장 재미있었던건 개인연구 파트인데, 지난 세미나에서 제가 MBPA++에서 가장 큰 문제점이라고 생각했던 experience replay에 MIR 방법론을 적용하여 개선하였습니다. 특히 이를 통해 실제로 좋은 결과까지 도출한것을 보고 많은것을 배울 수 있었습니다. 개선해야할 부분이라고 여겼던 포인트들을 다시 정의한 후, 선행연구로부터 적절한 방법론을 적용하고 실제로 좋은 결과를 도출하는 자세를 배워야겠다고 다짐할 수 있는 시간이었습니다.

    항상 헷갈리던 Continual learning 개념들을 확실하게 정의내리고, MTL, Metalearning등 자칫 혼동될수있는 개념들과의 차이점에 대한 발표자의 생각과 논리들을 들을 수 있는 좋은 세미나였습니다. 계속 이 분야 연구를 이어가셨으면 좋겠다는 생각을 했습니다. 감사합니다 !


  • 2020-06-14 13:44

    이번 세미나는 최희정 박사과정의 Lifelong Language Learning(LLL)에 관련한 주제였습니다. LLL은 Text classification과 같이 동일한 task를 가진 여러 데이터셋을 순차적으로 학습하고 여러 도메인에서 task를 수행할 수 있는 하나의 모델을 만드는 방법론을 말합니다. 이번 세미나에서는 LAMOL(Language Modeling for Lifelong Language Learning)과 MIR(Maximally Interfered Retrieval)에 대해 발표를 진행하였습니다.
    LAMOL은 여러개의 text classification 데이터셋을 GPT-2 를 기반으로 하는 QA 모델을 학습하는 방법으로 LLL을 접근하는 모델이었습니다. MIR은 Continual Learning 과정에서 이번 단계에서 학습해야할 Batch 데이터(Incoming Batch)와 이전 단계에서 학습한 데이터셋 중에 incoming batch와 유사한 데이터를 샘플링한 후 Incoming batch를 학습하기 전 후 모델에 대한 loss를 통해 이전 단계에서 학습한 샘플에 대한 성능을 평가한 후 loss가 크게 증가하는 샘플들을 기반으로 모델을 학습하는 방법입니다. LAMOL을 설명하기 위해 GPT-2에 대한 설명을 Embedding 단계에서부터 Pre-Training, Fine-tuning까지 자세히 설명해주었고, MIR에 대해서도 그림으로 직관적으로 설명해주어 이해하기 쉬웠습니다.
    개인 연구에서 LAMOL에서 MIR 방법론을 적용하여 Continual Learning에서의 문제라고 할 수 있는 Catastrophic forgetting 문제를 완화시킨 실험 결과가 인상적이었습니다. 제가 석사 입학할 당시부터 꾸준하게 Continual Learning에 대해 공부하고 연구를 진행하면서, 하나의 결과물을 만들어낸 것을 보니, 저 또한 꾸준하게 공부해야겠다는 것을 배우게 되었습니다. 또한, Continual Learning과 Multi-Task Learning에 대해 헷갈리는 부분이 있었는데, 해당 질문에 대해 답변을 잘해 주셔서 두 개의 task에 대해 확실한 차이점을 알게 되었습니다. 좋은 발표 감사합니다!


  • 2020-06-14 17:12

    이번에 발표해주신 세미나의 주제인 LLL은 딥러닝 모델을 현실에 적용할 때 그 한계점을 극복하고자 하는 연구라고 생각합니다. 연구 관점에서만 얽매이지 않고, 실제로 딥러닝 모델을 적용하였을 때 발생할 수 있는 문제에 대해 정의하고 이를 다시 연구 관점에서 풀어가려는 그 흐름 자체가 굉장히 멋진 것 같습니다. 이번 세미나에서 가장 인상깊었던 것은 개인 연구 부분이였습니다. 기존 모델의 문제점을 파악하고 그를 해결할 수 있는 적합한 방법론을 가져와 결합함으로써 좋은 성능을 가진 모델을 만들 수 있었는데, 그 과정에서의 사고나 열심히 실험을 수행하신 노력들을 본받아야겠다는 생각을 하게 되었습니다. 좋은 발표 감사드립니다.


  • 2020-06-15 17:02

    오늘 세미나에서는 continual learning에 대해서 진행되었습니다. 가장 먼저 궁금했던점은 multi-task learning과 continual learning의 차이 였는데 이 부분에 대해서 확실히 알 수 있었습니다. multi-task learning은 모든 task, data들이 주어져 있을때 모든 task를 아우르는 통합된 모델을 만드는 것이고, continual learning은 real-time 데이터가 순차적으로 발생되었을떄 이전 모델의 context feature을 유지하면서 새로운 데이터를 학습함으로써 catastrophic forgetting문제를 해결하는 분야로 이해하였습니다. 세미나에서 사용된 모델은 GPT2의 구조를 가지는 LAMOL이라는 모델이었으며, 이전 데이터를 가지고 있지 않는 상황을 조건하에 새로운 데이터를 데이터를 학습시 이전 데이터의 정보가 사라지는 경우가 있으니 GPT2의 모델로 Pseudo instance를 생성성하여 새로운 데이터와 같이 학습하는 generative replay를 설명해 주셨습니다. 그리고 가장 인상깊은 트릭은 Maximally interfered retrieval(MIR)로, 새로운 데이터를 추가할때 현재 모델의 loss를 크게하는 샘플들을 더 중요하게 샘플링하여 continual model의 개선시키는 내용이었습니다.


  • 2020-06-16 15:23

    Lifelong Language Learning이라는 주제로 발표를 들었습니다. 지난 번 NLP에서 Continual Learning을 수행한 MBPA++ 이후 또 다른 NLP에 대한 Continual Learning모델이었습니다. 본 논문에서는 감성분석, semantic role labeling, goal-oriented dialogue의 세 가지 task를 수행하는 continual learning 모델을 소개합니다. 해당 모델은 GPT2를 베이스로 했으며 앞선 task들을 QA 형식으로 변형한 데이터셋을 이용합니다. 모델은 task에 대한 학습을 수행한 뒤 새로운 task에 대해 학습하기 전 이전 task들의 데이터 분포를 따르는 샘플을 생성함으로써 catastrophic forgetting을 예방합니다. generative replay라고 불리는 이러한 샘플 생성 방식을 통해 생성된 이전 task의 가상 데이터와 새로운 task의 데이터를 통합해 학습을 진행하게 됩니다.
    또 다른 방법론인 MIR(Maximally Interfered Retrieval)은 새로운 task를 학습할 때 과거 task의 데이터들을 샘플링하고 샘플링된 데이터들에 대해 weight update 전과 후의 loss를 비교합니다. 그 후 loss가 크게 증가하는 샘플들을 기반으로 모델을 학습함으로써 학습에 도움이 되는 샘플만 사용합니다. 최근 semi-supervised learning이나 meta learning관련 연구를 보며 데이터 자체에 대한 유사성을 계산하는 다양한 방식을 접하고 있습니다. 이번 세미나에서 소개해주신 것과 같이 mil을 통해 유사한 과거 데이터를 찾아내거나 generative model을 통해 새로운 데이터를 생성해내는 방식 모두 continual learning뿐만 아니라 meta learning 등 다양한 분야에 적용할 수 있겠다는 생각이 들었고 마찬가지로 meta learning에서 사용되는 diversity와 같은 measure를 이용한 방식이 continual learning에 적용될 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 해 주셔서 감사합니다.


  • 2020-06-23 16:42

    이번 세미나는 최희정 박사과정의 개인 연구주제인 continual learning에 대한 발표였습니다. 매번 세미나 발표 시 해당 분야의 핵심 내용과 prerequisites를 자세히 설명해주어 수개월 텀으로 이루어지는 세미나에도 연속성이 유지되는 것 같습니다. 오늘 다뤄진 방법론은 LAMOL과 MIR입니다. LAMOL은 여러 task를 순차적으로 학습하기 위해 서로 다른 task의 데이터셋을 QA 형태로 변환합니다. 개인적으로 QA 데이터가 타 NLP task의 데이터를 포괄할 수 있는 형태라는 언급이 인상적이었고, 제 개인연구 주제인 Open IE에서도 QA가 downstream task 뿐 아니라 데이터를 생성하고 학습을 수행하는데에도 도움이 되기 때문에 QA에 대해서도 자세히 공부해봐야겠다는 생각이 들었습니다. MIR의 경우 새로운 task 학습 시 catastrophic forgetting을 방지하기 위해 imcoming batch와 유사한 과거 데이터를 sampling 하여 lifelong learning을 수행합니다. 이러한 접근은 박중민 석사과정의 세미나에서 다뤄졌던 scheduled sampling for matching network와 유사합니다. 두 방법론 모두 모델이 지나치게 쉬운 데이터만을 학습하여 일반화 성능이 하락하는 것을 방지하기 위해 난이도가 높은 학습데이터를 구성하여 모델의 성능을 높였습니다. 이번 세미나에서 언급된 MIR 방법론이 꼭 continual learning 뿐 아니라 타 분야에서도 유의미하게 사용될 수 있을 것 같다는 생각이 들었습니다.


  • 2020-06-24 16:41

    최희정 박사과정이 발표해 주신 Lifelong Language Learning(LLL) 는 매우 흥미로운 주제 인것 같습니다. 오늘 설명주신 LAMOL이나 MIR 논문에서 Continual Learning할 때 자주 발생하는 문제(Catastrophic forgetting)를 완화시키기 위하여 메모리를 이용하는 것은 마치 강화학습에서 메모리를 사용하여 학습을 안정적이게 하는 방법과 매우 유사해 보였습니다. MIR 방법론에서 모델을 이용하여 메모리에 있는 샘플들의 loss를 구하고 loss가 가장 큰 샘플들을 샘플링하여 모델을 robust하게 하는 점은 특히 인상 깊었습니다. 메모리를 이용하는 다양한 방법론에 해당 샘플링 방법들을 사용하면 성능향상에 도움이 될것 같다는 생각을 해 봅니다. 발표 감사합니다.


  • 2020-07-10 15:00

    매우 흥미로웠던 세미나였습니다. 개인적으로 저의 개인연구 주제를 제외하고는 가장 오래 봐온 분야였고, 그만큼 발표자 스스로 긴 시간 열심히 연구해온 분야입니다. 우선 image domain에서 시도되었던, 그리고 좋은 conference에 발표되었던, generative model을 통한 catastrophic forgetting을 완화하는 개념을 text domian에서 GTP를 통하여 구현한 선행 연구를 발표해 주었습니다. 이러한 연구들을 보고 있으면 도메인이 다른 분야의 연구를 나의 도메인에 어떻게 가지고 올 수 있는가를 고민하고 또 해결하는 능력이 연구자에게 매우 중요하다는 것을 알 수 있습니다. 이후 해당 연구를 바탕으로 MIR sampling을 적용하여 성능을 개선한 개인연구를 발표해주었습니다. 사소해 보일 수 있으나 아이디어적으로나 성능적으로 훌륭한 연구라는 생각이 들었습니다. 이러한 부분을 본받아 저의 개인연구도 성과를 거두어야겠다는 다짐을 하였습니다.


  • 2020-07-30 19:22

    Universal model을 구축하는 것은 미래에 가장 큰 숙제라고 생각합니다. 이를 위해 Incremental learning, Few-shot learning, Leveraging self-supervision 등 다양한 분야로 연구되고 있는데 개인적으로 Few-shot을 연구하는 저의 입장에서 해당 세미나는 많은 도움이 되었습니다. 세미나는 Incremental learning 관련한 분야로 lifelong language learning을 발표하였고, 이에 대한 논문들을 소개하였습니다. 기존 모델에서 Task를 추가적으로 학습하다보니 Transfer learning 느낌으로 기존 Task의 정보들은 잃어버리지 않을까 생각하였지만 Memory module로 보완하는 모습을 보였습니다. 개인적인 생각으로 모든 Task를 수행할 수 있는 모델로의 구축은 memory의 한계, 파라미터 조정의 한계 등으로 힘들지 않을까 생각하지만 해당 연구에 종사하는 연구자 분들이 좋은 아이디어로 지속적으로 발전하지 않을까 하는 기대가 있습니다. 관련 논문들로 아이디어를 얻고 본인의 개인연구에 접목하여 성능을 거둔 모습에 참된 연구자의 자세라고 생각하였습니다. 좋은 발표 감사합니다.


  • 2020-08-03 20:09

    이번 세미나에서는 Lifelong Language Learning을 위한 Language Model을 학습하는 방식인 LAMOL과 역시 Lifelong Language Modeling을 위해 이전 Task에서 학습한 데이터 중 해당 Task에서 학습할 데이터와 유사한 데이터를 샘플링하는 MIR 방식에 대해 소개하였습니다.
    우선적으로 LAMOL의 경우 다양한 NLP Task를 QA의 형태로 통합한 후, Text Prediction과 Text Classification의 관점에서 모델을 학습합니다. 이후 새로운 Task를 학습하기 이전에 학습된 모델을 바탕으로 Text Prediction의 관점에서 이전 Task의 분포를 따르는 샘플을 새로운 Task의 데이터 크기에 비례하게 생성하여 Replay에 저장한 뒤에, 이전 Task들에서 생성된 데이터와, 새로운 Task의 실제 데이터를 함께 사용하여 모델을 학습하는 방식으로 Lifelong Language Learning Task에서 SOTA를 달성하였습니다.
    MIR의 경우 기존에 학습된 LLL에서 새로운 Task의 데이터를 받아 추가적으로 학습을 진행하고, 기존 Task의 데이터에서 기존 모델의 Loss와 추가적으로 학습된 모델의 Loss를 각각 계산한 뒤 그 차이가 큰 데이터들을 샘플링하여 Lifelong Model에 이용하는 방식입니다.
    상세한 시각적 자료로 이해에 큰 도움을 받았습니다. 감사합니다.


  • 2020-08-14 15:15

    최희정 석박통합과정의 세미나 발표를 들었습니다. 오늘 발표해주신 논문은 2개로 먼저 소개 해주신 LAMOL: Language Modeling for Lifelong Language Learning 논문은 GPT-2를 기반으로 lifelong language learning에서 SOTA 성능을 도출한 논문이었습니다. 먼저 LAMOL은 text generation에 특화된 GPT-2를 기반으로 5개의 text classification task와 decaNLP의 5가지 task를 QA task의 형태로 수행하는 lifelong language learning 방법론이었습니다. 해당 방법론은 GPT-2를 기반으로 generative replay를 구축하여 이전 tasks의 데이터 분포를 반영하는 것을 통해 성능 향상을 얻었다고 합니다.
    두번째로 발표 해주신 논문은 MIR: Online Continual Learning with Maximally Interfered Retrieval 논문입니다. MIR은 기존 replay-based continual learning 모델의 랜덤 샘플링 방법을 보완하기 위해 loss 변화를 기반으로 하는 샘플링 방법을 통해 보다 중요한 샘플을 추출함으로써 효과적으로 이전 task의 정보를 유지할 수 있었다고 합니다.
    추가적으로, 실제 발표자 분께서 실험 했던 내용과 이번에 관련 논문 작성 했던 비하인드 스토리들을 들을 수 있어서 유익한 시간이었습니다. 감사합니다.


전체 559
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 16477
관리자 2020.03.12 0 16477
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 15163
관리자 2020.03.12 0 15163
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 16146
관리자 2020.03.12 0 16146
556
[Paper Review] NVIDIA Radio Series (15)
Woojun Lee | 2026.05.04 | 추천 0 | 조회 575
Woojun Lee 2026.05.04 0 575
555
[Paper Review] Graph-based RAG (15)
Doyoon Kim | 2026.04.30 | 추천 0 | 조회 476
Doyoon Kim 2026.04.30 0 476
554
[Paper Review] Recursive Transformer (16)
Jungi Lee | 2026.04.13 | 추천 0 | 조회 687
Jungi Lee 2026.04.13 0 687
553
[Paper Review] Why CLIP fails at Dense Prediction Task? (16)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 683
Jinwoo Jang 2026.04.06 0 683
552
[Paper Review] Dynamic Large Concept Models (17)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 424
Jaeyong Ko 2026.03.30 0 424
551
[Paper Review] Programming Refusal with Conditional Activation Steering (17)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 1014
Sunmin Kim 2026.03.10 0 1014
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (11)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 806
Sunghun Lim 2026.03.01 0 806
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 449
Suyeon Shin 2026.02.25 0 449
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (11)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 991
Jaehyuk Heo 2026.02.12 0 991
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 1142
Hyeongwon Kang 2026.02.10 0 1142

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호