FlashAttention Series

IO-aware attention 알고리즘의 발전 과정을 다루는 시리즈입니다. FlashAttention v1부터 v3까지 핵심 아이디어와 최적화 기법을 정리합니다.

이 시리즈는 FlashAttention의 발전 과정을 다룹니다. GPU 메모리 계층 구조를 활용한 IO-aware attention 알고리즘이 어떻게 진화해왔는지 살펴봅니다.

  1. Flash Attention

    타일링과 온라인 소프트맥스를 활용한 IO 인식 어텐션 알고리즘으로 2-3배 속도 향상과 10-20배 메모리 절감을 달성하는 FlashAttention.

  2. Flash Attention 2

    작업 분배 개선, 비행렬곱 FLOPs 감소, 병렬화 향상을 통해 학습 속도를 2배로 높이는 FlashAttention-2.

  3. Flash Attention 3

    Warp 특화, WGMMA 파이프라이닝, FP8 지원으로 H100 GPU에서 1.5-2배 속도 향상을 달성하는 FlashAttention-3.