[Paper Review] spurious Forgetting in Continual Learning of Language Models

작성자
Hun Im
작성일
2025-08-22 18:39
조회
571
제목: Spurious Forgetting in Continual Learning of Language Models

학회: ICLR 2025

 

인용 수: 11회

https://arxiv.org/pdf/2501.13453

선정한 배경은 다음과 같습니다.
  • 개인 연구에 있어서 spurious forgetting 개념을 차용하고자 하며, 이에 대해 처음으로 이 개념을 제시한 논문에 대해 다뤄보고자 했습니다. spurious forgetting에 대한 원인에 대해 이해하고, 향후 연구 방향에 도움을 받고자 했습니다.
논문 내용 요약
  • 최근 LLM의 Continual Learning 연구에서, 기존의 파국적 망각 현상만으로는 설명하기 어려운 문제들이 관찰됨.
  • 기존의 망각 이론은 이러한 급격한 성능 저하를 '학습된 지식의 손실'로 간주해옴. 그러나 본 논문에서는 이에 대해 이의를 제기하며, 새로운 개념인 가짜 망각(spurious forgetting)을 정의하며, 원인을 명확하게 규명함.
  • Spurious forgetting은 '근본 지식의 손실'이 아니라 특정 과업에 지식을 적용하는 능력 '과업 정렬의 손실' 때문임을 주장함
  • 'Task 정렬'에서 핵심적인 역할을 하는 모델의 하위 레이어들을 학습 과정에서 동결시켜, 새로운 과업을 학습하면서도 기존의 정렬 상태를 유지하도록 하는 간단한 해결책 제시
전체 8

  • 2025-08-24 09:52

    오늘 세미나에서는 Spurious Forgetting in Continual Learning of Language Models*논문이 소개되었습니다.
    기존 continual learning 연구에서 성능 저하의 주요 원인으로 여겨졌던 catastrophic forgetting과 달리, 본 논문은 성능 저하 현상이 실제 지식의 손실 때문이 아니라 ‘과업 정렬(task alignment)의 붕괴’로 인해 발생한다는 점을 강조하며 spurious forgetting이라는 새로운 개념을 제시하였습니다. 이러한 문제 인식의 전환은 기존 이론적 틀을 보완할 뿐 아니라, continual learning 연구 전반에 새로운 논의의 장을 열어줄 수 있다는 점에서 의미가 크다고 생각됩니다.
    특히, 모델의 하위 레이어를 동결하여 기존 과업 정렬을 유지하는 간단하면서도 효과적인 방법을 제안한 점이 인상 깊었습니다. 복잡한 기법을 추가하는 대신 구조적으로 핵심 원인을 짚어 해결하려는 접근은 실용적이면서도 이론적으로 설득력이 있었습니다. 더 나아가, catastrophic forgetting을 ‘당연한 한계’로 받아들이기보다는, 그 속에서 진짜 원인과 가짜 원인을 구분하려는 태도는 연구자가 문제를 바라보는 관점의 중요성을 다시금 일깨워주었습니다.
    이번 세미나를 통해, 성능 저하 현상을 단순히 결과로만 받아들이는 것이 아니라 그 본질적 원인을 비판적으로 분석하고 새로운 개념을 도입하는 과정이 얼마나 중요한지 배울 수 있었습니다. 앞으로 제 연구에서도 문제를 재정의하고 다른 각도에서 바라보려는 시도를 적극적으로 해보고자 합니다. 좋은 발표 준비해 주셔서 감사합니다!


  • 2025-08-25 11:09

    이번 세미나는 모델이 새로운 데이터를 학습함에 따라 필연적으로 발생하는 Catastrophic Forgetting 문제를 완화시키는 목적을 가지는 Continual Learning 과정 중에 실제로 모델이 지식을 소실한 것이 아닌, Task 간 정렬이 어긋나면서 발생하는 성능 저하를 의미하는 Spurious Forgetting이라는 개념을 정의한 “Spurious Forgetting in Continual Learning of Language Model”이라는 논문에 대한 발표를 중심으로 진행되었습니다. Catastrophic Forgetting이라는 개념은 딥러닝을 공부하는 초기부터 접할 수 있는 개념인데, 실제로 성능이 저하된 이유가 새로운 데이터에 대한 학습 과정에서 기존 지식을 잊어버리는 것이 아닌 Task 간 정렬 문제라는 것이 매우 흥미로웠습니다. 이를 확인하기 위한 토이 실험에서도 아주 잠깐의 재훈련만으로도 기존의 성능을 회복한 것을 보았을 때, 이 개념을 토대로 Continual Learning에서도 새로운 연구 방향이 구성되었다는 점에서 의미 있는 연구라는 생각이 들었습니다. 또한 Spurious Forgetting이라는 개념이 Continual Learning 뿐만이 아닌 새로운 Task에 대한 학습 과정에서 모두 적용될 수 있는 개념일 것 같아 향후 더 넓은 분야에서도 이러한 개념을 다루게 될 지 지켜볼 가치가 있는 것 같습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-08-26 01:32

    이번 세미나는 "Spurious Forgetting in Continual Learning of Language Models" 라는 논문에 대한 소개를 중심으로 진행되었습니다.최근 대형 언어 모델(LLM)에서 관찰되는 Catastrophic Forgetting을 단순히 '이전 지식 자체의 소실'로 해석하는 기존 접근을 넘어, 새로운 개념인 Spurious Forgetting. 즉, 근본적인 지식은 모델 내에 남아 있지만, task별 정렬 능력(Alignment)이 깨짐으로써 생기는 성능 저하 현상을 명확하게 정의하고 원인을 실험적으로 규명한 점이 인상적이었습니다. 특히, 하위 레이어 동결 등 비교적 단순한 조치만으로도 Task 정렬이 빠르게 복원됨을 실증함으로써, 단순한 재훈련만으로 catastrophic처럼 보였던 손실이 실제로는 정보 접근 문제임을 밝혔다는 점에 신선함을 느꼈습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2025-08-31 16:39

    모델 학습 중 이전 task에 대한 성능 하락이 지식 소실이라는 통념을 넘어, alignment 붕괴가 원인일 수 있음을 제시한 연구였습니다. 일반적인 LLM의 능력에 비해서 지엽적인 task를 다루긴 했지만, 학습 과정 중 이전 task에 대한 alignment 변화로 인해 spurious forgetting이 발생함을 직관적으로 보여준 좋은 연구였습니다. 다만 일반적인 CV나 시계열 모델과 달리 LLM의 경우 충분한 iteration으로 학습한 시킨다면 새로운 정보를 보다 확실히 학습 가능하다는 점을 고려했을 때, LLM의 spurious forgetting 역시 사실은 단순한 undertraining일 수도 있겠다는 생각이 들었습니다. 물론 continual learning 분야에서 1 epoch을 기본으로 가정하고 있기에 가능한 해석일 수 있겠으나, 만일 undertraining이 자명하며, 추가 학습으로 간단히 해결할 수 있다면 특이상황 하에서의 해석이 유의미할 지는 판단하기 어려운 듯합디다. 좋은 발표 감사합니다!


  • 2025-09-01 18:34

    이번 세미나는 LLM의 Continual Learning 문제를 다룬 논문을 중심으로 진행되었습니다. 비정상적(non-stationary) 데이터 환경에서 발생하는 catastrophic forgetting 문제를 짚고, 기존 연구들이 제안한 정렬 보존, 파라미터 업데이트 제약, 메모리 기반 접근 등 다양한 해결 전략을 체계적으로 정리해 준 점이 인상적이었습니다. 특히 단순히 지식이 소실되는 것이 아니라, Task 간 정렬 불일치로 인한 성능 저하라는 해석이 새로웠습니다. 다만 물론 Methodology를 제시하긴 하지만, survey의 성격이 강한 논문이다 보니, 실제 적용 사례나 구체적인 실험적 검증보다는 나열에 가까워 아쉬움이 있었습니다. 그럼에도 불구하고 LLM의 지속적 학습 문제를 전반적으로 이해하고, 앞으로 연구가 어떤 방향으로 나아가야 할지 정리할 수 있는 좋은 시간이었습니다.


  • 2025-09-03 16:19

    금일 세미나는 Spurious Forgetting in Continual Learning of Language Models 논문을 바탕으로 진행되었습니다. 본 연구는 새로운 모델링 방법을 제안하기보다는, 언어 모델에서의 continual learning 과정에서 발생하는 spurious forgetting 현상을 다양한 관점에서 분석하는 데 초점을 맞추고 있습니다. 연구는 먼저 LLM의 continual learning 중 관찰되는 갑작스러운 성능 저하, 즉 새로운 과제 도입만으로 이전의 광범위한 학습 성과가 무효화되는 현상에 대한 문제 제기에서 출발합니다. 이후 간단한 실험을 통해 이러한 성능 저하가 기존 지식의 완전한 소실이 아니라, 과제 간 정렬이 어긋나면서 나타나는 spurious forgetting임을 밝혀내고 있습니다. 방법론적 제안 역시 매우 중요하지만, 이처럼 다양한 통찰을 제공하는 분석 연구를 접하는 것 역시 매우 중요하다는 생각이 들었습니다. 좋은 발표 준비해주셔서 감사드립니다.


  • 2025-09-01 18:39

    금일 세미나는 자연어 처리 분야에서의 continuous learning 시 발생하는 forgetting이 실은 task 정렬에 기인한다는 분석을 진행한 "Spurious Forgetting in Continual Learning of Language Models"을 중심으로 진행되었습니다. 이를 엄밀히 실험하기 위해 인위적으로 생성한 데이터를 가지고 pretrain과 finetune 2회를 진행하는 실험을 반복하였습니다. 그 결과 새로운 태스크로 continual learning 되면서 모델의 성능이 매우 급격하게 감소하는 것을 확인할 수 있었고, 이로인해 model weight나 feature 단의 왜곡이 발생한다고 주장하고 있습니다. 하지만 많은 LLM 논문들에서 llm의 지식을 소거하는 것은 매우 어렵고, finetuned으로 인한 catastrophic forgetting은 사실 task format만 맞추지 못한다는 점을 상기해보면, 해당 논문의 스케일이 매우 작아 발생할 수 있는 실험 결과가 아니었나 싶습니다. 다만 그럼에도 불구하고 복잡한 문제 상황을 명확히 정의하고 이를 보일 수 있는 실험을 설계한 점이 인상적이었습니다.


  • 2025-09-02 18:39

    이번 세미나는 “Spurious Forgetting in Continual Learning of Language Models” 논문을 중심으로, Catastrophic Forgetting의 원인을 새로운 시각에서 조명한 연구를 다뤘습니다. 기존에는 Continual Learning 중 발생하는 성능 저하가 ‘기존 지식의 소실’ 때문이라고 여겨졌지만, 이 논문은 실제로는 task 간 정렬 능력의 붕괴로 인해 생기는 ‘Spurious Forgetting’이라는 현상이라고 정의합니다. 간단한 fine-tuning만으로도 이전 성능이 빠르게 복원된다는 실험 결과는 매우 설득력 있었고, 향후 Catastrophic Forgetting을 다루는 방법론에도 큰 영향을 줄 수 있는 통찰이라고 생각됩니다. 기존 개념을 되짚고 새로운 분석 프레임워크를 제안했다는 점에서 의의 있는 연구였으며, LLM의 지속적 학습 환경을 설계할 때 중요한 시사점을 던져주는 발표였습니다. 감사합니다.


전체 544
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 13862
관리자 2020.03.12 0 13862
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 12610
관리자 2020.03.12 0 12610
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 13532
관리자 2020.03.12 0 13532
531
비밀글 [Rehearsal] 석사학위 논문심사 - 천재원 (17)
Jaewon Cheon | 2025.11.18 | 추천 0 | 조회 40
Jaewon Cheon 2025.11.18 0 40
530
[Paper Review] Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data (14)
Suyeon Shin | 2025.11.18 | 추천 0 | 조회 462
Suyeon Shin 2025.11.18 0 462
529
[Paper Review] Fusionformer: A Novel Adversarial Transformer Utilizing Fusion Attention for Multivariate Anomaly Detection (14)
Sunghun Lim | 2025.11.07 | 추천 0 | 조회 437
Sunghun Lim 2025.11.07 0 437
528
[Paper Review] AXIS: EXPLAINABLE TIME SERIES ANOMALY DETECTION WITH LARGE LANGUAGE MODELS (13)
Hyeongwon Kang | 2025.10.29 | 추천 0 | 조회 835
Hyeongwon Kang 2025.10.29 0 835
527
[Paper Review] Introduction to Discrete Diffusion Language Models. (15)
Jaehee Kim | 2025.10.24 | 추천 0 | 조회 856
Jaehee Kim 2025.10.24 0 856
526
[Paper Review] AutoTimes: Autoregressive Time Series Forecasters via Large Language Models (17)
Sieon Park | 2025.10.03 | 추천 0 | 조회 624
Sieon Park 2025.10.03 0 624
525
[Paper Review] DFM: Differentiable Feature Matching for Anomaly Detection (15)
Subeen Cha | 2025.09.24 | 추천 0 | 조회 727
Subeen Cha 2025.09.24 0 727
524
[Paper Review] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning (15)
Siyul Sung | 2025.09.17 | 추천 0 | 조회 548
Siyul Sung 2025.09.17 0 548
523
[Paper Review] ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced (15)
Jihun Nam | 2025.09.02 | 추천 0 | 조회 747
Jihun Nam 2025.09.02 0 747
522
[Paper Review] Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models (6)
Junyeong Son | 2025.08.28 | 추천 0 | 조회 1200
Junyeong Son 2025.08.28 0 1200

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김도윤: doyooni303@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호