Sequence Parallelism Series

이 시리즈는 Sequence Parallelism 기법들을 다룹니다. 긴 시퀀스를 여러 GPU에 분산하여 처리하는 다양한 접근 방식의 발전 과정을 살펴봅니다.

Ring Self-Attention
Ring 통신 패턴을 활용한 GPU 간 시퀀스 병렬화로 분산 어텐션을 수행하는 Ring Self-Attention.
Blockwise RingAttention
Blockwise RingAttention은 blockwise attention의 순열 불변성을 활용하여 KV 블록 통신과 계산을 완전히 중첩시킴으로써, 장치 수에 선형 비례하는 컨텍스트 길이 확장을 제로 오버헤드로 달성하는 분산 시퀀스 병렬화 방법.
DeepSpeed Ulysses
All-to-all 통신을 통한 효율적 시퀀스 병렬화로 100만 토큰 이상의 학습을 가능케 하는 DeepSpeed-Ulysses.
Unified Sequence Parallelism
Ulysses와 Ring Attention을 결합한 Unified Sequence Parallelism으로 208K 토큰까지의 확장 가능한 장문 시퀀스 학습.