Sequence Parallelism Series
긴 시퀀스 처리를 위한 Sequence Parallelism 기법을 다루는 시리즈입니다. Ring Attention부터 USP까지 발전 과정을 정리합니다.
이 시리즈는 Sequence Parallelism 기법들을 다룹니다. 긴 시퀀스를 여러 GPU에 분산하여 처리하는 다양한 접근 방식의 발전 과정을 살펴봅니다.
- Ring Self-Attention
Ring 통신 패턴을 활용한 GPU 간 시퀀스 병렬화로 분산 어텐션을 수행하는 Ring Self-Attention.
- Blockwise RingAttention
Blockwise RingAttention은 blockwise attention의 순열 불변성을 활용하여 KV 블록 통신과 계산을 완전히 중첩시킴으로써, 장치 수에 선형 비례하는 컨텍스트 길이 확장을 제로 오버헤드로 달성하는 분산 시퀀스 병렬화 방법.
- DeepSpeed Ulysses
All-to-all 통신을 통한 효율적 시퀀스 병렬화로 100만 토큰 이상의 학습을 가능케 하는 DeepSpeed-Ulysses.
- Unified Sequence Parallelism
Ulysses와 Ring Attention을 결합한 Unified Sequence Parallelism으로 208K 토큰까지의 확장 가능한 장문 시퀀스 학습.