FlashAttention Series | Sung-Yub Kim

이 시리즈는 FlashAttention의 발전 과정을 다룹니다. GPU 메모리 계층 구조를 활용한 IO-aware attention 알고리즘이 어떻게 진화해왔는지 살펴봅니다.

Flash Attention
타일링과 온라인 소프트맥스를 활용한 IO 인식 어텐션 알고리즘으로 2-3배 속도 향상과 10-20배 메모리 절감을 달성하는 FlashAttention.
Flash Attention 2
작업 분배 개선, 비행렬곱 FLOPs 감소, 병렬화 향상을 통해 학습 속도를 2배로 높이는 FlashAttention-2.
Flash Attention 3
Warp 특화, WGMMA 파이프라이닝, FP8 지원으로 H100 GPU에서 1.5-2배 속도 향상을 달성하는 FlashAttention-3.