サブロウ丸

Sabrou-mal サブロウ丸

主にプログラミングと数学

2025-04-01から1ヶ月間の記事一覧

PytorchのDeviceMesh

DeviceMeshはGPUなどのリソースグループを管理するツールで、これを使えば分散学習に割り当てるGPUリソースを柔軟に割り当てられる。 分散並列手法にはいくつかの種類があり、大まかにデータ並列とモデル並列の二つがある。LLMのようなパラメータ数が多いモ…

NVIDIA SHARP; Error event recieved: event: RDMA_CM_EVENT_ROUTE_ERROR, error: -22; Local Port validation failed. error

NVIDIA SHARPを利用してreduce-scatterを実行しようとすると次のエラー。 [snail03:1:40413 unique id 139630260094914][2025-04-22 13:45:47] DEBUG collect_ports_data: found valid device (device mlx5_2 port 1) in at index 0 [snail02][Apr 22 13:45:…

マルチサーバ、マルチコンテナ(Docker)環境でのMPIプログラム実行

本稿ではホストネットワークを用いてマルチサーバーでマルチコンテナ環境でのMPI プログラムを実行する環境の作成を行います。 Docker Swarm ネットワークを用いた環境構築はこちら↓ コンテナの作成 準備 Dockerfile コンテナの起動 SSH 鍵の共有 実行 コン…