Distributed Training Series
대규모 모델 학습을 위한 분산 훈련 기법을 다루는 시리즈입니다. Tensor Parallelism, Pipeline Parallelism, Activation Recomputation 등을 정리합니다.
이 시리즈는 Distributed Training 기법들을 다룹니다. 단일 GPU의 한계를 넘어 대규모 Transformer 모델을 효율적으로 훈련하는 병렬화 전략을 살펴봅니다.
- Tensor Parallel
Megatron-LM의 텐서 모델 병렬화를 통한 수십억 파라미터 Transformer 모델의 효율적 다중 GPU 학습.
- Pipeline Parallel (GPipe)
GPipe의 마이크로 배치 파이프라인 병렬화를 통한 거대 신경망 학습과 동기식 gradient 업데이트의 학습 일관성 보장.
- Reducing Activation Recomputation in Large Transformer Models
Sequence parallelism과 selective activation recomputation을 통한 대규모 transformer 모델의 활성화 메모리 5배 절감과 학습 처리량 30% 향상.