Seminar

BOARD

[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…)

Paper Review

작성자

Jaewon Cheon

작성일

2025-06-27 17:16

조회

246

1. 논문 제목

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention (https://arxiv.org/abs/2006.16236)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length (https://arxiv.org/abs/2406.06484)
Learning to (Learn at Test Time) (https://arxiv.org/abs/2310.13807)
Titans: Learning to Memorize at Test Time (https://arxiv.org/abs/2501.00663)

2. Overview

Linear Transformer와 Test-time Training의 관계
Sequence Modeling 아키텍처로서의 Titan

3. 발표자료 및 발표영상

발표자료 : 하단 첨부
발표영상 : 추후 첨부

전체 14

Hun Im

2025-06-30 11:02

이번 세미나에서는 "Titans: Learning to Memory at Test Time"을 중심으로 Linear attention과 Test time training에 대해 다뤄주셨습니다. 최근 관심을 끌고 있는 Linear attetnion과 TTT 그리고 Titans의 핵심 아이디어를 중심으로 발표해주셨습니다. Titans는 기존 Linear attention이 갖는 병렬성읮장점을 유지하면서도, TTT처럼 입력에 따라 메모리를 실시간으론 최적화할 수 있는 방식을 제안합니다.특히 메모리 업데이트를 따라 단순 누적이 아닌 손실 최적화 관점으로 재구성하며, 이를 통해 중요한 정보를 선별적으로 저장하고 필요시에는 잊을 수 있는 구조를 설계한 점이 흥미로웠습니다. 발표에서는 이러한 업데이트 방식이 SGD의 모멘텀이나 weight decay와 유사한 역할을 수행함을 설명해 주셨고, 이를 기반으로 기존 TTT 구조보다 효율적으로 동작할 수 있다는 점을 강조하였습니다. 이와 같은 메모리 디자인과 업데이트 전략은 추론 중에도 모델이 능동적으로 적응할 수 있는 길을 제시한다는 점에서 매우 인상 깊었습니다. Linear attention, TTT, Titans 등 상당히 어려운 부분이 많았지만 2회차에 걸쳐 하나씩 잘 설명해주셔서 원활히 이해할 수 있었습니다. 감사합니다.!
Jaehee Kim

2025-06-30 11:02

이번 세미나는 두번에 걸쳐 Linear Attention의 이론적 배경과 최근에 발표되어 이를 이용하고 있는 "Titans: Learning to Memorize at Test Time"에 다루었습니다. Linear Attention이란 본래 길이에 대해 quadratic한 연산량을 가지게 되는 attention mechanism의 한계점을 극복하고자 과거 RNN에서 사용되던 memory를 차용한 구조를 의미합니다. 수식적으로는 본래 attention에서 softmax 항을 제거하면 linear attention과 동일한 꼴이 됩니다. 즉, 과거 정보를 가져와서 현재에 활용한다고 여겨지던 attention mechanism이 결국 제한된 memory에 정보를 저장하고 이용한다는 관점에서 동일한 형태가 되는 것을 알 수 있었습니다. 또한, 이러한 memory 개념을 test time 때 적용한다면, 실제 추론 시 필요한 정보들을 별도의 parametirze된 memory를 update함으로써 저장한다고 여길 수 있습니다. 이를 통하여 sequence modeling을 위해 linear form으로 전환하는 것이 가능하다는 점을 다루었습니다. linear attention의 개념이 매우 매력적이지만, 결국 attention은 softmax를 통하여 시점마다 각 정보를 다르게 가져올 수 있는 반면, linear attention은 과거 일부 정보만 사용할 수 있다는 점이 한계점으로 느껴졌습니다. 그럼에도 불구하고 해당 분야가 다양한 관점을 이용하여 발전하고 있는 것을 알 수 있는 소중한 기회였습니다. 좋은 발표 감사드립니다.
Junyeong Son

2025-06-30 19:24

이번 세미나는 Linear Attention 및 Test Time Training(TTT)의 개념부터, "Titans: Learning to Memory at Test Time"라는 논문에서 제안한 Titans까지의 내용들로 구성되었습니다. 먼저 Linear Attention이라는 개념은 기존 Attention 수식에서 Softmax 항을 제거하는 것으로 구성되며, RNN에서 활용했던 메모리 구조를 활용합니다. TTT의 경우에는 테스트 시점에서도 모델을 업데이트시키는 것을 목표로 하며, 이를 위해 실시간으로 메모리를 최적화할 수 있도록 구성하여 State가 아닌 Model로 취급함으로써 여러 최적화 기법을 적용할 수 있다는 장점을 가지고 있습니다. 궁극적으로 Titans의 경우에는 기존 TTT에서 메모리 모델 학습을 Momentum과 Weight Decay라는 개념을 활용해 고도화 시킴으로써 효율적인 동작이 가능하게 하였습니다. 이번 세미나를 들으면서 Transformers 구조가 사실은 RNNs의 구조와 유사할 수 있다는 점에서 시작해 추론 시의 실시간 모델 업데이트부터 이에 대한 효율적인 Update에 대한 내용까지, 매 연구들이 던지는 Research Question들이 매우 흥미로웠습니다. 앞으로도 이 Memory Modeling이라는 개념에 관심을 가지고, 향후 진행될 연구에 관심을 가지게 되는 좋은 시간이었습니다. 좋은 발표 해주셔서 감사합니다.
Minjeong Ma

2025-06-30 21:20

이번 세미나에서는 기존 Transformer와 RNN의 한계를 넘어선 새로운 방법론을 소개한 “Titans: Learning to Memorize at Test Time”에 대해 발표해 주셨습니다. 해당 논문은 단순히 Linear Attention의 계산 효율성을 논의하는 것을 넘어서, Attention 메커니즘을 메모리 최적화 문제로 재해석하여 RNN과의 연결 고리를 명확하게 짚었다는 점이 인상 깊었습니다. 기존 RNN은 고정된 컨텍스트 벡터에 정보를 압축해 표현하는 반면, Linear Attention은 필요한 정보를 직접 조회하는 구조로 설계되었는데, Titans는 이러한 조회 과정을 ‘메모리 상태 업데이트’라는 관점에서 정리하고, 이를 Test-time Training 개념과 결합하여 강건한 시퀀스 모델을 구현합니다. 특히 ‘past surprise’이라는 개념을 도입해 업데이트량에 의미를 부여하고, Momentum과 Weight Decay를 활용한 동적인 메모리 갱신 방식은 SGD 최적화 기법과의 유사성 측면에서도 흥미로웠습니다. 또한, Titans는 단순히 모델의 성능 향상뿐 아니라, 병렬성과 효율성, 그리고 메모리 설계 측면에서 실용적인 구현 전략까지 제시하였고, Chunkwise 병렬화 전략을 통해 계산 효율성까지 확보하려는 시도는 매우 실용적이었습니다. 결론적으로 Titans는 Transformer 2.0이라고 부르기에 충분할 만큼 구조적 혁신성과 이론적 통찰이 담긴 연구로 느껴졌으며, 향후 발전 가능성이 매우 높다고 생각했습니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.
Woongchan Nam

2025-07-04 13:14

금일 세미나에서는 "Titans: Learning to Memorize at Test Time" 논문을 중심으로, Linear Attention과 Test-time Training(TTT)이라는 최근 주목받는 두 가지 흐름이 어떻게 만날 수 있는지 깊이 있게 다루어 주셨습니다. 특히, 기존 Linear Attention의 병렬화 및 계산 효율성을 유지하면서도, 입력에 따라 메모리를 실시간으로 최적화할 수 있다는 Titans의 아이디어가 흥미로웠으며, Titans가 메모리 업데이트를 단순 누적이 아니라 손실 최적화 관점에서 재해석하고, SGD의 Momentum 및 Weight Decay와 유사한 방식으로 메모리를 동적으로 관리함으로써, 이전 방법론과의 차별점을 분명히 설명해주셔서 이해에 큰 도움이 되었던 것 같습니다. Transformer와 RNN, 그리고 TTT까지 다양한 시퀀스 모델링 패러다임이 결국 ‘메모리 모델링’이라는 공통된 질문 위에서 만난다는 점을 알 수 있었고, 기존의 Attention이 softmax를 통해 각 시점별로 정보를 다르게 가져오는 반면, Linear Attention은 효율성 측면에서 유리하지만 일부 정보에만 집중하는 한계가 있다는 점, 그리고 Titans가 이러한 구조적 한계를 어떻게 극복하려고 했는지 실제 구현 전략(Chunkwise 병렬화 등)까지 짚어주신 점이 흥미로웠던 것 같습니다. 좋은 발표와 설명 정말 감사드립니다!
Siyul Sung

2025-07-04 13:21

이번 세미나에서는 "Theory of Everything (About Sequence Modeling with DL Models…)" 라는 주제로 진행되었습니다. Linear Attention, Test-time Training, 그리고 Titans 아키텍처를 하나의 큰 흐름으로 엮어, 시퀀스 모델링의 본질적 문제(메모리, 정보 압축, 일반화)를 깊이 있게 다루었습니다. 특히 Titans는 기존 Linear Attention의 한계를 극복하기 위해, 메모리 상태를 단순 벡터가 아닌 '모델'로 확장한 점이 돋보였습니다. 이로써 Test-time Training과의 연결고리를 명확히 하면서, 시퀀스 모델이 실제로 '학습'을 이어갈 수 있는 구조를 제시한 점이 신선했습니다. 병렬성과 효율성을 동시에 잡기 위한 Chunkwise Parallelism 전략에 대해 이론적 설명과 함께 실제 구현상의 trade-off까지 짚어준 점이 좋았습니다. 좋은 발표 준비해주셔서 감사합니다.
SangMin Lee

2025-07-05 11:44

이번 세미나는 Linear Attention과 Test Time Training(TTT)의 핵심 개념을 짚고, 이를 접목한 최신 연구인 "Titans: Learning to Memorize at Test Time" 논문을 중심으로 진행되었습니다. Titans는 기존 Linear Attention의 병렬 처리 장점은 유지하면서, TTT처럼 입력에 따라 메모리를 실시간 최적화하는 방식을 제안합니다. 특히 손실 기반의 메모리 업데이트 전략과 모멘텀·디케이 개념을 도입해, 보다 효율적인 추론이 가능함을 보여주었습니다. 어려운 주제였지만 논리적인 구성 덕분에 흥미롭게 들을 수 있었습니다.
Hyeongwon Kang

2025-07-05 17:54

이번 세미나에서는 “Titans: Learning to Memorize at Test Time” 논문을 중심으로, Linear Attention과 Test-time Training을 결합한 새로운 시퀀스 모델링 방식에 대해 다뤘습니다. 기존 RNN은 고정된 메모리에 정보를 압축하는 반면, Titans는 Attention을 메모리 업데이트 관점에서 재해석하며, 입력에 따라 동적으로 메모리를 최적화하는 구조를 갖습니다. 특히 ‘past surprise’를 기준으로 업데이트 크기를 조절하고, Momentum 및 Weight Decay에 기반한 메모리 관리 방식을 도입해 안정성과 효율성을 동시에 확보했습니다. 또한 Chunkwise 병렬화 전략을 통해 기존 Linear Attention의 연산 효율성을 유지하면서도 정보 손실 문제를 보완하고자 한 점이 인상적이었습니다. Transformer, RNN, TTT 등 여러 흐름을 연결해 메모리 중심의 새로운 시퀀스 처리 구조를 제시했다는 점에서 의미 있는 연구라고 느꼈습니다. 좋은 발표 감사합니다.
Hankyeol Kim

2025-07-07 19:39

Next transformer가 될 수도 있다는 기대감과 함께 Titan이 발표되었을 당시, 흥미가 갔으나 제대로 이해하기 어려웠던 기억이 있습니다. 이번 세미나를 통해 중요한 마일스톤이 될 만한 연구를 자세하고 친절하게 소개해주셔서 너무 좋았습니다. 특히, 도입부에서 Attention의 mechanism에 대해 다시 고찰해보며 차근차근 논리를 전개해주신 것이 인상깊었습니다. 평소에 그저 당연히 받아들이고 있던 Q, K, V 연산에서 softmax만 제외했을 때 RNN과 의미적으로 동일한 결과가 나온다는 것이 다소 충격이기까지 했던 듯하며, 당연한 것에도 의문을 던지며 논리를 검토하는 것이 연구의 본질 중 하나임을 다시금 깨달았습니다. 이어서, Test-Time Training 역시 메모리 최적화의 관점으로 접근한 것 역시 일관되게 근본에 충실한 관점이라 느껴졌습니다. 과정에서, 다른 연구들과의 비교를 통해 논문의 설득력을 강화하는 방식의 발표도 너무 좋았습니다. 훌륭한 발표 너무 감사합니다!
Suyeon Shin

2025-07-08 15:38

이번 세미나에서는 최근 시퀀스 모델링 분야에서 주목받고 있는 “Titans: Learning to Memorize at Test Time” 논문을 중심으로, Linear Attention과 Test-Time Training(TTT)이라는 두 핵심 개념을 접목한 새로운 접근을 소개해주셨습니다. Linear Attention에서 softmax 연산을 제거했을 때 RNN과 유사하게 구조를 바라볼 수 있다는 관점이 새롭고, 또 놀라웠습니다. 다양하고 복잡한 수식들이 많았음에도 불구하고, 차근차근 설명해주시면서 예시도 함께 들어주셔서 어려운 내용이었지만 이해하기에 수월했던 것 같습니다. Titans 논문만을 소개해주신 것이 아니라 이를 이해하기 위해 필요한 여러 기존 연구들과의 차이를 비교하고, Titans만의 독창성과 확장 가능성을 설명해주셔서 좋았습니다. 특히 Test-time Training과 Attention 메커니즘은 모두 메모리의 효율적 사용을 위한 방법론이기에, 각기 다른 기법들을 하나의 프레임워크로 통합해 이해할 수 있었습니다. 좋은 발표 감사드립니다!
Woojun Lee

2025-07-10 11:18

이번 세미나에서는 “Titans: Learning to Memorize at Test Time” 논문을 소개해주셨습니다. 본 발표는 최근 주목받고 있는 Linear Attention 개념과 Test-time Training(TTT)을 연결하여, 입력 데이터에 따라 실시간으로 메모리를 최적화하는 Titans의 접근법을 깊이 있게 다뤘습니다. 기존 attention mechanism이 각 시점마다 softmax를 통해 서로 다른 정보를 동적으로 활용하는 반면, Linear Attention은 연산량을 줄이기 위해 softmax를 제거함으로써 제한된 메모리에 일부 정보만 저장하여 효율성을 높입니다. 이 논문에서는 메모리를 단순 누적 방식이 아니라, 손실 최적화의 관점에서 동적으로 업데이트하고, 특히 SGD의 Momentum이나 Weight Decay와 유사한 방식으로 관리한다는 독창적인 아이디어를 제안합니다. 더불어 Transformer와 RNN 등 다양한 sequence modeling 기법들이 궁극적으로 메모리 모델링이라는 공통 주제를 다루고 있음을 알 수 있었고, Titans가 chunkwise 병렬화 등을 통해 실제 구현에서도 효율성을 높인 점이 매우 인상적이었습니다. 좋은 발표 감사합니다.
Jinwoo Park

2025-07-11 10:36

금일 세미나에서는 "Theory of Everything (About Sequence Modeling with DL Models)"를 주제로 진행되었습니다. 해당 세미나에서는 특히 최근 Transformer 구조의 대체 모델로 주목받고 있는 Titans 모델에 대한 설명과 이를 알기 위해 필요한 background를 중심으로 진행되었습니다. 해당 연구에서는 먼저 linear attention 개념을 소개하며, 기존 Transformer의 self-attention에서 사용되던 softmax 연산이 없어도 어쨌든 각 정보 간의 중요도를 파악할 수 있다는 가정을 제시합니다. 이 가정하에 softmax를 제거하면, 결과적으로 RNN의 update rule과 유사한 형태가 된다고 설명합니다. 이를 통해 과거 정보를 제한된 메모리 공간에 저장하고 활용하는 RNN의 구조를 차용한 새로운 attention 메커니즘인 linear attention을 정의하고 있습니다. 또한 발표에서는 Test-Time Training (TTT) 개념도 함께 소개되었습니다. 일반적으로 모델 학습이 완료된 이후에는, 새로운 입력 데이터를 기반으로 추가 학습을 수행하는 것이 어렵지만 하지만 레이블 없이 데이터 자체가 가진 clue를 활용할 수 있다면, 이를 통해 모델을 추가로 업데이트할 수 있다는 가능성이 제시됩니다. 이에 기본적으로 제안 연구에서의 기반이 되는 TTT에서는 RNN의 상태(state)를 reconstruction task 기반의 self-supervised learning (SSL) 을 통하여 학습 가능하도록 설계하고 있었습니다. Titans 모델에서는 이러한 구조를 더욱 고도화하여, 메모리 업데이트를 momentum 기반의 past surprises, weight decay 기반의 forgetting mechanism 관점에서 해석하고, 기존 implicit loss의 안정성을 높이는 방식을 함께 제안합니다. 복잡한 주제였음에도 불구하고 다양한 예시를 통해 핵심 개념을 쉽게 이해할 수 있도록 해주신 흥미로운 발표였습니다. 정말 감사드립니다.
Sieon Park

2025-07-11 17:52

이번 세미나에서는 " Theory of Everything (About Sequence Modeling with DL Models…)"을 주제로 진행되었습니다. Linear Transformer와 Test-Time Training(TTT)의 관계를 중심으로, Titan이라는 새로운 아키텍처를 통해 시퀀스 모델링의 진화 방향을 잘 보여준 발표였습니다. 특히 기존 Transformer 구조의 한계로 지적되던 복잡도를 극복하기 위해 제안된 Linear Attention 방식의 의의와, 최근 연구인 Delta Rule 기반 병렬화 기법까지 연결해 설명한 점이 인상 깊었습니다. 또한 Titans에서는 학습 이후 테스트 시점에서의 적응 능력을 학습하는 구조를 제안하며, 기존 메타러닝 방식과는 다른, 실제 적용에 더 가까운 Test-time adaptation 전략을 보여주었습니다. Transformers를 RNN처럼 해석하려는 최근의 흐름을 반영해, autoregressive 구조에 대한 재해석을 덧붙인 점도 흥미로웠고, 앞으로 긴 시퀀스나 변화하는 환경에 대한 robust한 대응이 필요한 문제들에서 Titan과 같은 접근이 어떤 파급을 가져올지 기대가 되는 발표였습니다. 좋은 발표 감사합니다!
Subeen Cha

2025-06-30 10:09

이번 세미나에서는 2차시에 걸쳐 Titans 논문이 소개되었습니다.
Titans 논문을 중심으로 여러 관련 연구들을 함께 엮어 설명해주신 덕분에, 단순한 논문 리뷰를 넘어 하나의 큰 흐름 속에서 이 연구가 어떤 맥락과 의미를 가지는지를 이해할 수 있었습니다. 단편적으로 보면 각각의 논문이 RNN/Attention/Test-time Training 등 각기 다른 주제를 다루는 듯 보이지만, 발표에서는 이를 ‘메모리 모델링’이라는 공통된 주제 아래 자연스럽게 연결해 주셔서 관련된 여러 내용을 수월하게 이해할 수 있었던 것 같습니다.
특히 Linear Attention의 구조적 이점과 한계를 설명하고, 그 위에서 Test-time Training 기법이 어떻게 확장될 수 있는지를 단계적으로 짚어주신 점이 좋았습니다. 단순히 Titans 논문의 내용만을 나열하는 것이 아니라, 기존 방법들과의 차별점(예: DeltaNet, Gated Attention 등)을 비교하고, Titans가 왜 중요한 시도인지에 대해 설득력 있게 전달해주셨습니다.
또한, 메모리를 단순한 state가 아니라 학습 가능한 모델로 확장한 Titans의 접근을 SGD 관점에서 바라보고 Momentum과 Weight Decay를 반영한 Update Rule로 설명하신 부분은 매우 흥미로웠습니다. 발표 중간중간 “왜 이렇게 해야 하는가?”, “이전 방법들과의 철학적 차이는 무엇인가?”에 대한 질문을 스스로 던지고 답해나가는 방식 덕분에, 복잡한 수식이나 구조도 자연스럽게 이해할 수 있었습니다.
마지막에 정리해 주신 ‘Test-time Training과 Linear Attention이 사실상 같은 문제의 다른 표현일 수 있다’는 시각은 개인적으로 큰 인사이트였고, 앞으로 이 분야의 연구 동향을 따라갈 때 주요한 관점이 될 것 같습니다. 좋은 발표 준비해주셔서 감사합니다 🙂

« [Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?

[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection »

목록보기

전체 515

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11394	관리자	2020.03.12	0	11394
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10033	관리자	2020.03.12	0	10033
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11106	관리자	2020.03.12	0	11106
512	[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (2) Sieon Park \| 2025.07.14 \| 추천 0 \| 조회 45	Sieon Park	2025.07.14	0	45
511	[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (2) Subeen Cha \| 2025.07.10 \| 추천 0 \| 조회 73	Subeen Cha	2025.07.10	0	73
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 246	Jaewon Cheon	2025.06.27	0	246
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 348	Minjeong Ma	2025.06.07	0	348
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 38	Minjeong Ma	2025.06.02	0	38
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 35	Kiyoon Jeong	2025.06.02	0	35
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 35	SangMin Lee	2025.06.02	0	35
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 439	Siyul Sung	2025.05.31	0	439
503	[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16) Woojun Lee \| 2025.05.20 \| 추천 0 \| 조회 375	Woojun Lee	2025.05.20	0	375

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호