Sequence Parallelism Series

긴 시퀀스 처리를 위한 Sequence Parallelism 기법을 다루는 시리즈입니다. Ring Attention부터 USP까지 발전 과정을 정리합니다.

이 시리즈는 Sequence Parallelism 기법들을 다룹니다. 긴 시퀀스를 여러 GPU에 분산하여 처리하는 다양한 접근 방식의 발전 과정을 살펴봅니다.

  1. Ring Self-Attention

    Ring 통신 패턴을 활용한 GPU 간 시퀀스 병렬화로 분산 어텐션을 수행하는 Ring Self-Attention.

  2. Blockwise RingAttention

    Blockwise RingAttention은 blockwise attention의 순열 불변성을 활용하여 KV 블록 통신과 계산을 완전히 중첩시킴으로써, 장치 수에 선형 비례하는 컨텍스트 길이 확장을 제로 오버헤드로 달성하는 분산 시퀀스 병렬화 방법.

  3. DeepSpeed Ulysses

    All-to-all 통신을 통한 효율적 시퀀스 병렬화로 100만 토큰 이상의 학습을 가능케 하는 DeepSpeed-Ulysses.

  4. Unified Sequence Parallelism

    Ulysses와 Ring Attention을 결합한 Unified Sequence Parallelism으로 208K 토큰까지의 확장 가능한 장문 시퀀스 학습.