Distributed Training Series

대규모 모델 학습을 위한 분산 훈련 기법을 다루는 시리즈입니다. Tensor Parallelism, Pipeline Parallelism, Activation Recomputation 등을 정리합니다.

이 시리즈는 Distributed Training 기법들을 다룹니다. 단일 GPU의 한계를 넘어 대규모 Transformer 모델을 효율적으로 훈련하는 병렬화 전략을 살펴봅니다.

  1. Tensor Parallel

    Megatron-LM의 텐서 모델 병렬화를 통한 수십억 파라미터 Transformer 모델의 효율적 다중 GPU 학습.

  2. Pipeline Parallel (GPipe)

    GPipe의 마이크로 배치 파이프라인 병렬화를 통한 거대 신경망 학습과 동기식 gradient 업데이트의 학습 일관성 보장.

  3. Reducing Activation Recomputation in Large Transformer Models

    Sequence parallelism과 selective activation recomputation을 통한 대규모 transformer 모델의 활성화 메모리 5배 절감과 학습 처리량 30% 향상.