分散深層学習(Distributed Deep Learning; Distributed DL)まとめ

自然言語処理などのタスクにおいて深層学習モデルは必須の道具になっています。近年はTransformerをベースにして同じアーキテクチャパターンを繰り返してモデルを巨大化させることや、学習データを増やすことで精度の向上を目指すのが主流の方向性の一つです。

そこで問題となるのが、一つの計算機では学習に必要なメモリが足りなくなる、計算コストが大きすぎて現実的な時間では学習が終わらない、という点です。モデルやデータの巨大化の要請のスピードと比べるとハードウェア（GPU、CPU、各種メモリ）の性能向上は緩やかに進んでいます。

そこで深層学習モデルの訓練を複数の計算機で行うことで、これらの課題を解決しよう、という試みが分散深層学習です。

分散深層学習には大きく3つの方向性があり

これらは合わせて3D-parallelとか呼ばれたりします。

本項は分散深層学習の研究のサーベイまとめ用ページです。

データ並列(data-parallelism)

(2020) [まとめページ] [pdf] Zero: Memory optimizations toward training trillion parameter models.
ひとこと
メモリ削減の工夫満載のデータ並列
(2021) [まとめページ] [pdf] ZeRO-Offload: Democratizing Billion-Scale Model Training.
ひとこと
GPU→CPUにデータをoffloadして、CPU上でパラメタ更新を行うことでメモリ削減
(2022) [pdf] Zero-infinity: Breaking the gpu memory wall for extreme scale deep learning.
ひとこと
GPU→CPU→NVMeにデータをoffloadすることでメモリ削減

(2019) [まとめページ] [pdf] Gpipe: Efficient training of giant neural networks using pipeline parallelism.
ひとこと
Google開発のシンプルなパイプライン
(2019) [まとめページ] [pdf] PipeDream: generalized pipeline parallelism for DNN training.
ひとこと
Microsoft開発のパイプライン
(2021) [まとめページ] [pdf] Efficient large-scale language model training on GPU clusters using megatron-LM.
ひとこと
NVIDIA開発のパイプライン; 1兆パラメタのGPTモデルを502petaFLOPs/s on 3072GPUs

(2019) [まとめページ] [pdf] Supporting very large models using automatic dataflow graph partitioning.
ひとこと
CNNモデルの分割手法の提案
(2021) [まとめページ] [pdf] [学会記事(日本語)] [slide] [github] Automatic graph partitioning for very large-scale deep learning.
ひとこと
計算グラフの分割によるモデル分割アプローチ
(2022) [まとめページ] [pdf] [slide] Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning.
ひとこと
動的計画法と0-1整数計画法を用いたモデル分割と演算子並列による分散処理ワークロード策定

(2017)[pdf] FlexFlow: A Flexible Dataflow Accelerator Architecture for Convolutional Neural Networks
ひとこと
CNNの並列化探索、畳み込み層の計算をforループまで落としてどのような並列計算が良いのかを考える。内容が結構重厚なので、読むのが大変そう。。
(2018) [まとめページ] [pdf] Mesh-tensorflow: Deep learning for supercomputers.
ひとこと
スパコン向け分散並列ライブラリmesh-tensorflowの設計思想
(2019) [まとめページ] [paper] [video] [blog] [github] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism.
ひとこと
transformerのシンプルなテンソル並列
(2019)[paper] Supporting very large models using automatic dataflow graph partitioning.
ひとこと
Tofuと名付けたモデルの分割手法を提案。operationごとの2分割を所望の分割数になるまで繰り返す。

(2016) [まとめページ] [pdf] [slide] [github] Training Deep Nets with Sublinear Memory Cost.
ひとこと
chekcpointの作成によりforward時に保存するデータ量を削減する
(2018) [まとめページ] [pdf] GPU メモリ管理の実行時最適化による大規模深層学習の高速化.
ひとこと
backwardに必要な特徴マップなどをCPU offloadするかrecomputeするかを計算時間とのトレードオフから考える
(2022) [pdf] [日本語pdf] Scalable and Practical Natural Gradient for Large-Scale Deep Learning.
ひとこと
自然勾配法によるパラメタ更新時の分散深層学習(フィッシャー行列の近似演算含む); データ並列とモデル並列の組み合わせ