分散深層学習
@article{zheng2022alpa, title={Alpa: Automating Inter-and Intra-Operator Parallelism for Distributed Deep Learning}, author={Zheng, Lianmin and Li, Zhuohan and Zhang, Hao and Zhuang, Yonghao and Chen, Zhifeng and Huang, Yanping and Wang, Y…
https://pytorch.org/docs/stable/notes/ddp.html#internal-design の日本語訳 + おまけの脚注 pytorch はv1.12 Internal Design ここでは、torch.nn.parallel.DistributedDataParallelがどのように動作しているかを、1つの反復処理の各ステップの詳細に踏み…
本稿ではDistributedDataParallelのサンプルコードを示し、また実行中にどのような通信が行われているかを確認します。 参考: Getting Started with Distributed Data Parallel — PyTorch Tutorials 1.13.0+cu117 documentation pytorch DistributedDataPara…
NVIDIAが提案するTransformerをベースとする言語処理モデルの並列化実装。 Githubのレポジトリには Data Preprocessing (データ前処理) Pretraining(事前学習) Evaluation and Tasks(評価) のコードが含まれています。 事前学習については BERT GPT T5…
MLBenchのビルド(https://mlbench.github.io)に色々手間取ったのでその記録を残します。 最終的な手順 実行コマンド エラー一覧 error: blis/cy.c: No such file or directory Failed to build matplotlib Starting control-plane Error docker.errors.APIEr…
python.distributedでは分散処理用のAPIとして、Point-to-Point通信や集団通信が提供されています。なので結構細かい処理をカスタマイズできたりします。 通信のbackendとしては(pytorch 1.13の段階で) MPI、 GLOO、 NCCLが指定できます。それぞれのbackend…
Tanaka, Masahiro, et al. "Automatic graph partitioning for very large-scale deep learning." 2021 IEEE International Parallel and Distributed Processing Symposium (IPDPS). IEEE, 2021. @inproceedings{tanaka2021automatic, title={Automatic gra…
Wang, Minjie, Chien-chin Huang, and Jinyang Li. "Supporting very large models using automatic dataflow graph partitioning." Proceedings of the Fourteenth EuroSys Conference 2019. 2019. @inproceedings{wang2019supporting, title={Supporting v…
@article{shoeybi2019megatron, title={Megatron-lm: Training multi-billion parameter language models using model parallelism}, author={Shoeybi, Mohammad and Patwary, Mostofa and Puri, Raul and LeGresley, Patrick and Casper, Jared and Catanza…
https://dl.acm.org/doi/10.1145/3458817.3476209 paper: @inproceedings{10.1145/3458817.3476209, author = {Narayanan, Deepak and Shoeybi, Mohammad and Casper, Jared and LeGresley, Patrick and Patwary, Mostofa and Korthikanti, Vijay and Vainbr…
@article{shazeer2018mesh, title={Mesh-tensorflow: Deep learning for supercomputers}, author={Shazeer, Noam and Cheng, Youlong and Parmar, Niki and Tran, Dustin and Vaswani, Ashish and Koanantakool, Penporn and Hawkins, Peter and Lee, Hyouk…
https://dl.acm.org/doi/abs/10.1145/3341301.3359646?casa_token=L-sKQKrRoE4AAAAA%3AYKo9NPdnPyG6IouMN5jfTHTCYFAGORDxen32GKAteeSG-ROhqx_OX-hVOfuyHiVBXLLJH0RPujhFPEk @inproceedings{narayanan2019pipedream, title={PipeDream: generalized pipeline …
@article{huang2019gpipe, title={Gpipe: Efficient training of giant neural networks using pipeline parallelism}, author={Huang, Yanping and Cheng, Youlong and Bapna, Ankur and Firat, Orhan and Chen, Dehao and Chen, Mia and Lee, HyoukJoong a…
深層学習において、学習データと学習モデルの巨大化が最新のトレンドになっています。 そこで学習時間の削減のために複数のマシンを用いてモデルを訓練する試みが行われており、 分散深層学習(distributed deep learning)などという呼ばれ方で一つの分野にな…