Seminar

BOARD

[Paper Review] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper Review

작성자

Jaewon Cheon

작성일

2024-09-12 14:25

조회

981

1. 논문 제목

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
링크 : 바로가기

2. Overview

GPU 계층에서의 IO를 줄이는 방법으로 Attention에 소요되는 시간/공간적 자원 사용을 줄이는 효율성을 확보
- Quadratic한 행렬의 실제화(Materialize)를 줄이는 것을 목적으로 함
이 과정에서, Softmax 연산의 Tiling과 Backpropagation의 Recomputation을 통해 기존 Attention 연산과 계산 결과는 동일하면서도 빠르게 Forward pass와 Backward pass를 진행할 수 있음

3. 발표자료 및 발표영상

발표자료 : 하단 첨부
발표영상 :"> [LINK]

전체 13

Junyeong Son

2024-09-16 14:23

이번 세미나는 IO-Awareness를 통해 빠르고, 메모리 효율적이지만 Trade-Off 없는 Attention 연산을 수행하는 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness이라는 논문에 대한 발표를 중심으로 진행되었습니다. FlashAttention은 기존 Memory-Efficient 모델들이 FLOPs를 감소시키려는 것과는 다르게 Attention 연산이 Memory-Bounded한 연산이라는 점을 통해 I/o Awareness의 감소에 초점을 맞춥니다. 이를 위해서 주어진 x 값의 최대값을 활용한 정규화를 통해 Softmax의 분모를 구성해 Softmax를 Decompose하는 Tiling Softmax를 수행하게 되고, 결론적으로 FLOPs 측면에서는 기존 Standard Softmax와 차이가 없지만, I/O가 감소함에 따라 효율적인 추론을 가능하게 합니다. 또한 역전파 연산 과정에선 기존에 가지고 있던 Matrix를 가지고 Attention Logit을 Recomputation하는 방식을 선택합니다. GPU의 구조를 파악해 Memory-Bounded한 연산과 Computation-Bounded한 연산을 구분한 후, Memory-Bounded에 해당하는 Attention 연산을 효율성을 위해 새로운 효율적 Attention 연산을 개발했다는 점에서 매우 흥미로웠습니다. 좋은 발표 해주셔서 감사합니다.
Woongchan Nam

2024-09-22 00:32

금일 세미나는 FlashAttention으로도 잘 알려져 있는 'FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness'라는 논문을 소개해 주셨습니다. 해당 논문은 실제 GPU 연산에서 Attention 연산의 중간 단계의 Matrix인 S, P를 HBM <-> SRAM 사이에서 R/W를 하지 않고 Attention 연산을 수행하고자 FlashAttention이라는 방법론을 제안하고 있으며, 구체적으로는 여러 개의 Kernel을 하나로 합치는 Kernel Fusion 방식을 통해 하나의 GPU 연산 호출로 Attention 연산을 수행하는 방법을 제안하고 있습니다. 다만, 역전파 수행시 여전히 S, P가 필요하다라는 문제점을 극복하고자 Matrix Multiplication과 Fuse될 수 있도록 Tensor를 복수의 Block들로 나누어 연산하는 Tiling 방식으로 Softmax를 수행하며, Gradient를 구하기 위해서 현재 Block의 통계량 m, l를 지속적으로 update하면서 Recomputation을 수행하는 방법을 제시하고 있습니다. 실험 결과로는, 일반적으로 Trade-off를 발생시키는 Approximation 방법론과 다르게 FlashAttention이 Exact Attention임에도 불구하고 Approximation 방법론보다도 빠른 결과를 기록하였으며, NxN에서 N이 매우 크지 않은 이상 Runtime, Memory 모두 우위인 결과를 기록하였습니다. 끝으로, 최근 FlashAttention을 많이 사용하면서 구체적으로 어떠한 원리로 Runtime이 빠른지 궁금했었는데 발표자분의 상세한 설명 덕분에 어렴풋이 이해할 수 있었던 것 같습니다. 좋은 발표 감사드립니다!
Minjeong Ma

2024-09-22 19:54

이번 세미나에서는 딥러닝 모델의 계산 효율성을 향상시키는 새로운 방법론을 제안한 ‘FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness’ 논문에 대해서 발표해주셨습니다. 해당 논문을 통해 GPU 계층에서의 I/O를 최소화하는 기법과 이가 어떻게 전체적인 Attention 메커니즘의 속도와 메모리 효율성을 개선하는지에 대해 자세히 알 수 있었습니다. 특히, Softmax 연산의 Tiling 기법과 Backpropagation의 Recomputation 과정을 최적화하여, 기존 방법 대비 더욱 빠르고 메모리 효율적인 연산을 가능하게 한 점이 인상적이었습니다. 이러한 기술적 발전은 특히 대규모 모델을 효율적으로 학습시키는 데 큰 도움이 될 것으로 보입니다. 특히, 복잡한 연산을 요구하는 최신 딥러닝 모델들에 있어서 중요한 기술적 도구가 될 것이라 판단합니다. 더불어, 대규모 행렬의 Materialize를 줄임으로써 발생할 수 있는 과도한 메모리 사용 문제를 해결하였다는 점에서, 메모리 제약이 큰 환경에서도 높은 성능을 유지할 수 있는 방법론이라 생각하였습니다. 해당 논문을 통해 단순히 알고리즘의 효율성을 넘어서, 최적화의 중요성과 그것이 실제 시스템에서 어떻게 구현될 수 있는지에 대한 깊은 고찰을 해볼 수 있었습니다. 어려운 내용이었지만 쉽고 자세하게 풀어서 설명해 주셔서 이해하기 수월했습니다. 좋은 발표 감사합니다.
Jaehee Kim

2024-09-23 10:28

금일 세미나는 attention 연산 시의 하드웨어 병목 현상을 해결하여 연산 속도를 개선하는 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness를 중심으로 진행되었습니다. 해당 연구 이전의 연산속도 개선은 실제 연산량을 줄이고자 attention의 범위를 조정하는 등의 방법론이 주를 이루었습니다. 하지만 본 연구에서는 attention mechanism은 유지하면서도 GPU 내부에서 일어나는 연산 및 데이터 송/수신 과정을 분석하여 속도를 개선하는 방식을 취하고 있습니다. 구체적으로는 GPU 내부에 존재하는 두가지 메모리인 HBM과 SRM 사이의 데이터 송/수신 과정에서 매우 큰 병목이 발생하므로, SRAM에서 최대한 연산이 이루어질 수 있도록 query와 Key matrix를 row/column wise하게 분해하여 연산하고 있습니다. 또한 학습 시에도 활용하기 위해 필요한 P값을 attention logit을 다시 계산하여 구하는 과정을 통해 매우 단순하게 해결하고 있습니다. 방법론 자체는 매우 아이디어가 단순하고, 속도 개선에서도 확실한 효과를 보이지만, 실제로 연구 당시 환경을 생각해보면 하드웨어와 소프트웨어 모두에 대해 깊게 이해하고 있어야 떠올리고, 구현할 수 있다는 점에서 중요한 연구라고 생각합니다. 최근 매우 큰 모델들이 연구 및 적용되면서 이러한 방향성의 최적화 연구들이 많이 이루어지고 있는데, 실제 활용하는 측면에서도 그 원리를 이해하고 사용하는 것이 점점 중요해질 것 같습니다. 좋은 발표 감사드립니다.
Siyul Sung

2024-09-23 14:01

이번 세미나에서는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" 논문에 대한 소개를 중심으로 진행되었습니다. 이 논문은 기존의 Attention 연산이 GPU의 입출력(IO) 병목으로 인해 느려지는 문제를 해결하기 위한 방안으로 FlashAttention을 제안하고 있습니다. 이 방법은 특히 메모리 사용과 연산 속도 측면에서 효율성을 극대화하고자 합니다. FlashAttention은 기존 연산을 최소화하면서도, Softmax 연산의 Tiling과 Backpropagation의 Recomputation을 활용해 기존 Attention과 동일한 결과를 더 빠르게 달성합니다. 이러한 접근은 GPU 메모리 계층 내에서의 데이터 이동을 최적화하여, 처리 속도를 대폭 향상시키는 것을 목표로 하고 있습니다. 해당 세미나를 통해 이 연구가 실제로 어떻게 GPU의 IO 병목 문제를 개선하는지에 대한 자세한 설명을 들을 수 있었습니다. 이러한 기술이 알게 모르게 많이 사용하고 있었으며, 해당 부분이 어느 경우에 사용되고, 어떤 원리인지 이해할 수 있어서 매우 유익한 세미나였습니다. 또한, Hardware 적인 부분에서 학습 및 추론 속도 향상을 위해 연구가 진행된 것이 흥미로웠던 연구였습니다. 좋은 발표 준비해주셔서 감사합니다.
Woojun Lee

2024-09-24 14:26

이번 세미나에서는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" 논문을 소개해주셨습니다. 이 논문은 Attention 연산에서 발생하는 하드웨어 병목 문제를 해결하여 연산 속도를 크게 개선하는 방법을 제안하고 있습니다. 기존의 방식은 Attention 범위를 축소하여 연산량을 줄이는 것에 초점을 맞추었다면, FlashAttention은 GPU 내부 메모리인 HBM과 SRAM 간의 데이터 전송 병목을 해결하면서도 Exact Attention 성능을 유지하는 점이 특징입니다. 특히 Kernel Fusion 기법을 통해 여러 Kernel을 하나로 결합하여 단일 GPU 연산 호출로 Attention 연산을 수행하고, Tiling 방식을 적용해 Softmax와 역전파를 효율적으로 처리합니다. 이 방식은 Approximation을 사용하지 않으면서도 성능 면에서 우위를 보였으며, 메모리와 속도 측면에서도 매우 효율적인 결과를 도출했습니다. 실험에서 보여준 결과는 대규모 N에서도 탁월한 성능을 확인할 수 있었고, FlashAttention이 왜 많은 곳에서 빠르게 채택되는지 그 원리를 이해하는데 도움이 되었습니다. 좋은 발표 감사합니다.
Saeran Park

2024-09-26 16:16

이번 세미나에서는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" 논문을 소개해 주셨습니다. 이 논문은 특히 GPU의 메모리 병목 문제를 해결하고 연산 성능을 극대화하는 방법론으로 FlashAttention을 제안하고 있습니다. FlashAttention은 GPU의 HBM(High Bandwidth Memory)과 SRAM 간 데이터 이동을 최소화하며, Tiling 방식과 재계산(Recomputation)을 통해 효율적인 Softmax 연산을 수행합니다. 이를 통해 Approximation 방식 없이도 기존 Attention 연산보다 더 빠른 속도를 달성하였고, 메모리 사용량을 줄이는 데도 성공했습니다. 특히 실험 결과에서 GPT-2, BERT 등에서 주목할 만한 속도와 메모리 사용 최적화를 보여주었으며, 대규모 N에서도 탁월한 성능을 입증했습니다. 발표를 통해 FlashAttention의 구체적인 원리와 성능 향상 방법을 이해할 수 있었고, 이를 통해 실질적으로 많은 분야에서 해당 기술이 어떻게 적용되고 있는지 알 수 있었습니다. 좋은 발표 준비해주셔서 감사드립니다.
Jinwoo Park

2024-09-12 15:05

금일 세미나에서는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" 논문을 소개해 주었습니다. 실질적으로 GPU는 데이터가 올라간 후, 한 계층에서 모든 연산이 이루어지는 것이 아니라, 텐서들을 저장하는 HBM과 실질적인 연산을 수행하게 되는 SRAM으로 나누어져 있습니다. 이때, SRAM에서의 연산이 병목이 발생하는 경우를 Compute-bound라 하며, HBM과 SRAM 사이의 통신(IO)에서 발생하는 병목을 Memory-bound라고 합니다. 해당 연구에서는 현재 하드웨어 적으로 GPU는 FLOPs보다 IO가 더 느린 상황이라고 말하며, IO를 줄이는 방향으로 Efficiency를 달성하고자 합니다. 이를 위하여, N 제곱에 해당하는 Attention matrix를 연산 과정에서 만들지 않도록 하며, softmax를 위하여 Tilling과 계산된 통계량을 바탕으로 하는 Recomputation을 진행합니다. GPU의 작동 방식과 같은 새로운 지식을 많이 얻어갈 수 있는 좋은 세미나였습니다. 또한, 발표자분이 모든 진행 과정을 figure로 나타내주어 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.
Jihun Nam

2024-09-30 11:22

이번 세미나에서는 GPU의 Attention 연산을 설계한 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness" 논문에 대한 세미나를 진행하였습니다. preliminary 섹션에서 GPU 연산 동작에 대해 설명해주어서 HBM, SRAM의 차이점을 알 수 있었고, 어느 부분이 연산 작업의 bottle neck인지에 대해서도 알 수 있는 기회가 되었습니다. 보통 attention 연산은 memory-bounded한 연산을 진행하며 이때 어떻게 GPU 계층간의 교호연산을 줄일 것인지에 대한 연구라고 볼 수 있습니다. 계산과정상 SRAM에 모든 Tensor를 올리는 것이 불가능하기 때문에 Block단위로 나누는 Tiling 과정으로 연산을 수행하고, 통계값으로 softmax 계산량을 축소하였습니다. 아키텍쳐를 최적화하여 연산량을 줄이는 방향으로 접근한 연구로써 저자가 언급했듯이 알게 모르게 사용되었을지 모르는 부분일 수 있었지만 이번 기회를 통해 하드웨어 부분에 대해서도 고민할 수 있는 기회가 되어 좋았습니다. 수고하셨습니다.
Jaehyuk Heo

2024-09-30 14:35

금일 세미나는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness"라는 논문을 통해 기존 Attention 연산의 메모리 효율성과 속도를 크게 개선하는 방법을 소개해 주셨습니다. 기존의 Attention 연산이 GPU에서 메모리 대역폭으로 인해 병목 현상이 발생하는 문제를 해결하고자, FlashAttention은 Softmax 연산을 Tiling 방식으로 분해하고, 역전파 과정에서 Recomputation을 통해 메모리 사용을 최소화하면서도 정확한 Attention 결과를 도출해냅니다. FLOPs 감소보다는 메모리 사용을 줄이는 데 초점을 맞춘 방법론이라는 점이 특히 인상적이었으며, 실제 실험 결과에서도 Approximation 기법을 사용하지 않고도 매우 빠른 속도를 기록한 점이 주목할 만합니다. 발표 덕분에 FlashAttention의 동작 원리를 명확히 이해할 수 있었습니다. 좋은 발표 감사드립니다!
Jiyoon Lee

2024-10-03 21:11

이번 세미나에서는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness"에 대해 소개해주셨습니다. FlashAttention 알고리즘은 기존 Transformer 모델의 성능 관련 문제를 해결한 중요한 연구였습니다. 특히, IO를 고려한 메모리 접근 최적화로 GPU의 성능을 최대한 활용한다는 아이디어를 갖습니다. 또한 타일링 기법을 통해 행렬을 효과적으로 처리함으로써 7.6배의 속도 향상을 이루고 있으며, 긴 문서 처리에 대한 가능성도 크게 보여주고 있습니다. 복잡한 연구임에도 이를 차근히 하나씩 설명해주시어 유익한 세미나가 될 수 있었던 것 같습니다. 좋은 발표 감사드립니다.
SangMin Lee

2024-10-14 19:54

이번 세미나는 "FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness"라는 논문을 중심으로 진행되었습니다. 이 연구는 Attention 연산에서 GPU의 I/O를 최소화하여 연산 효율성을 극대화하는 방법을 제안합니다. 발표자는 FlashAttention이 기존의 메모리 효율 모델과는 달리, Attention 연산이 메모리 제약이 큰 작업임을 인식하고 I/O 감소에 초점을 맞춘 점을 강조했습니다. 특히, Softmax 연산의 Tiling 기법과 Backpropagation에서의 Recomputation을 통해, 기존의 Attention 연산과 동일한 결과를 유지하면서도 Forward와 Backward 패스를 빠르게 처리할 수 있도록 한 점이 인상적이었습니다. 이 방법론은 특히 대규모 딥러닝 모델의 학습에서 시간과 메모리 사용을 효율적으로 관리할 수 있는 강력한 도구가 될 것으로 기대됩니다. 또한, FlashAttention은 정확한 Attention을 제공하면서도 기존의 Approximation 방법론보다 빠른 성능을 보인다는 실험 결과를 통해 그 유효성을 증명했습니다. 이러한 성과는 복잡한 연산을 요구하는 최신 딥러닝 모델들에 있어서 매우 중요한 기술적 발전이라 할 수 있습니다. 발표자님의 명확한 설명 덕분에 이 복잡한 내용을 쉽게 이해할 수 있었고, 실제 시스템에서의 구현 가능성에 대해서도 깊이 있게 생각해볼 수 있었습니다. 흥미로운 주제의 발표에 감사드립니다.
Hyeongwon Kang

2024-09-13 08:12

이번 세미나에서는 “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness” 논문이 소개되었습니다. 이 연구는 GPU 메모리 계층(HBM과 SRAM) 간의 데이터 전송 병목을 해결하여 Attention 연산의 속도와 메모리 효율을 크게 개선하는 방법을 제안합니다. FlashAttention은 Attention 연산 과정에서 N² 크기의 중간 행렬(S, P)을 생성하지 않고, Kernel Fusion 기법으로 여러 Kernel을 하나로 합쳐 단일 연산 호출로 처리하며, Tiling과 Recomputation을 통해 Softmax와 역전파를 효율적으로 수행합니다. 이를 통해 기존 Approximation 기반 방법들과 달리, 정확한 Exact Attention을 유지하면서도 속도와 메모리 사용량에서 더 나은 성능을 달성했습니다. 실험 결과, 대부분의 경우 Runtime과 Memory 측면에서 FlashAttention이 우위를 보였으며, 특히 대규모 Attention 계산에서도 뛰어난 성능을 입증했습니다. 발표자분의 명확한 설명과 시각 자료 덕분에 GPU의 IO 병목 문제와 이를 해결하는 방법에 대해 잘 이해할 수 있었던 유익한 시간이었습니다. 좋은 발표 감사드립니다!

« [Paper Review] LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection

[Paper Review] AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection »

목록보기

전체 505

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10538	관리자	2020.03.12	0	10538
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9142	관리자	2020.03.12	0	9142
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10251	관리자	2020.03.12	0	10251
502	[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (2) Jinwoo Park \| 2025.05.16 \| 추천 0 \| 조회 40	Jinwoo Park	2025.05.16	0	40
501	[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (3) Hun Im \| 2025.05.15 \| 추천 0 \| 조회 47	Hun Im	2025.05.15	0	47
500	[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (11) Junyeong Son \| 2025.05.08 \| 추천 0 \| 조회 142	Junyeong Son	2025.05.08	0	142
499	[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (15) Doyoon Kim \| 2025.05.01 \| 추천 0 \| 조회 161	Doyoon Kim	2025.05.01	0	161
498	[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18) Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 294	Sunghun Lim	2025.04.24	0	294
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 204	Suyeon Shin	2025.04.21	0	204
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 216	Woongchan Nam	2025.04.16	0	216
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 436	Kiyoon Jeong	2025.04.16	0	436
494	[Paper Review] Reasoning over Time Series with LLMs (16) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 454	Hyeongwon Kang	2025.04.09	0	454
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (17) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 440	Jaehyuk Heo	2025.04.02	0	440

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호