Sung-Yub Kim

parallelism/sequence-distribution 2
attention/ring-communication 2
attention/sequence-partitioning 2
core-tech/attention-mechanisms 2
optimization/memory-efficiency 2
optimization/inference-acceleration 2
optimization/hardware-optimization 2
math 1
github-pages 1
coding 1
dev 1
parallelism/tensor-partitioning 1
training/large-model 1
systems/weight-distribution 1
memory/parameter-sharding 1
parallelism/pipeline-stages 1
training/microbatch-optimization 1
memory/gradient-checkpointing 1
systems/model-partitioning 1
systems/distributed-training 1
training/4d-parallelism 1
architecture/mixture-of-experts 1
parallelism/expert-routing 1
training/sparse-activation 1
systems/conditional-computation 1
memory/long-context 1
systems/distributed-computation 1
parallelism/attention-heads 1
systems/all-to-all-communication 1
training/large-scale 1
memory/activation-optimization 1
parallelism/sequence-partitioning 1
training/memory-efficiency 1
systems/selective-checkpointing 1
parallelism/unified-framework 1
systems/hybrid-approach 1
training/long-sequence 1
optimization/performance-scaling 1
attention/memory-optimization 1
attention/hardware-acceleration 1
optimization/async-processing 1
optimization/fp8-precision 1
systems/gpu-utilization 1
performance/inference-speedup 1

parallelism/sequence-distribution

Blockwise RingAttention

TL;DR

Ring Self-Attention

TL;DR

attention/ring-communication

Blockwise RingAttention

TL;DR

Ring Self-Attention

TL;DR

attention/sequence-partitioning

Unified Sequence Parallelism

TL;DR

DeepSpeed Ulysses

TL;DR

core-tech/attention-mechanisms

Flash Attention 2

TL;DR

Flash Attention

TL;DR

optimization/memory-efficiency

Flash Attention 2

TL;DR

Flash Attention

TL;DR

optimization/inference-acceleration

Flash Attention 2

TL;DR

Flash Attention

TL;DR

optimization/hardware-optimization

Flash Attention 2

TL;DR

Flash Attention

TL;DR

math

Terminologies in Differential Calculus

Differential Linear map $df_p: \mathbb{R}^n \rightarrow \mathbb{R}$ on tangent vector \[\underbrace{v\rightarrow df_p(v)}_\texttt{linear} ,\;...

github-pages

홈페이지 관리 🏠

출처: https://docs.github.com/en/pages/setting-up-a-github-pages-site-with-jekyll/testing-your-github-pages-site-locally-with-jekyll

coding

Vim Cheatsheet 📜

Start, Save, and Quit Start: vi {filename} Save: Esc + :w Quit: Esc + :q Quit w. Saving: Esc + :wq Quit w.o. Saving:Esc + :q!

dev

Vim Cheatsheet 📜

Start, Save, and Quit Start: vi {filename} Save: Esc + :w Quit: Esc + :q Quit w. Saving: Esc + :wq Quit w.o. Saving:Esc + :q!

parallelism/tensor-partitioning

Tensor Parallel

TL;DR

training/large-model

Tensor Parallel

TL;DR

systems/weight-distribution

Tensor Parallel

TL;DR

memory/parameter-sharding

Tensor Parallel

TL;DR

parallelism/pipeline-stages

Pipeline Parallel (GPipe)

TL;DR

training/microbatch-optimization

Pipeline Parallel (GPipe)

TL;DR

memory/gradient-checkpointing

Pipeline Parallel (GPipe)

TL;DR

systems/model-partitioning

Pipeline Parallel (GPipe)

TL;DR

systems/distributed-training

Ring Self-Attention

TL;DR

training/4d-parallelism

Ring Self-Attention

TL;DR

architecture/mixture-of-experts

Mixture of Experts

TL;DR

parallelism/expert-routing

Mixture of Experts

TL;DR

training/sparse-activation

Mixture of Experts

TL;DR

systems/conditional-computation

Mixture of Experts

TL;DR

memory/long-context

Blockwise RingAttention

TL;DR

systems/distributed-computation

Blockwise RingAttention

TL;DR

parallelism/attention-heads

DeepSpeed Ulysses

TL;DR

systems/all-to-all-communication

DeepSpeed Ulysses

TL;DR

training/large-scale

DeepSpeed Ulysses

TL;DR

memory/activation-optimization

Reducing Activation Recomputation in Large Transformer Models

TL;DR

parallelism/sequence-partitioning

Reducing Activation Recomputation in Large Transformer Models

TL;DR

training/memory-efficiency

Reducing Activation Recomputation in Large Transformer Models

TL;DR

systems/selective-checkpointing

Reducing Activation Recomputation in Large Transformer Models

TL;DR

parallelism/unified-framework

Unified Sequence Parallelism

TL;DR

systems/hybrid-approach

Unified Sequence Parallelism

TL;DR

training/long-sequence

Unified Sequence Parallelism

TL;DR

optimization/performance-scaling

Flash Attention 2

TL;DR

attention/memory-optimization

Flash Attention 3

On Flash Attention 3

attention/hardware-acceleration

Flash Attention 3

On Flash Attention 3

optimization/async-processing

Flash Attention 3

On Flash Attention 3

optimization/fp8-precision

Flash Attention 3

On Flash Attention 3

systems/gpu-utilization

Flash Attention 3

On Flash Attention 3

performance/inference-speedup

Flash Attention 3

On Flash Attention 3