2025-04-01から1ヶ月間の記事一覧
DeviceMeshはGPUなどのリソースグループを管理するツールで、これを使えば分散学習に割り当てるGPUリソースを柔軟に割り当てられる。 分散並列手法にはいくつかの種類があり、大まかにデータ並列とモデル並列の二つがある。LLMのようなパラメータ数が多いモ…
NVIDIA SHARPを利用してreduce-scatterを実行しようとすると次のエラー。 [snail03:1:40413 unique id 139630260094914][2025-04-22 13:45:47] DEBUG collect_ports_data: found valid device (device mlx5_2 port 1) in at index 0 [snail02][Apr 22 13:45:…
本稿ではホストネットワークを用いてマルチサーバーでマルチコンテナ環境でのMPI プログラムを実行する環境の作成を行います。 Docker Swarm ネットワークを用いた環境構築はこちら↓ コンテナの作成 準備 Dockerfile コンテナの起動 SSH 鍵の共有 実行 コン…