サブロウ丸

Sabrou-mal サブロウ丸

主にプログラミングと数学

2025-03-01から1ヶ月間の記事一覧

Pytorchにおける分散処理に関する情報のまとめ

Writing Distributed Applications with PyTorch — PyTorch Tutorials 2.6.0+cu124 documentation UCC-backend(ProcessGroupUCC)について ProcessGroupへの追加。Feb, 2022 [RFC] UCC integration in ProcessGroupNCCL · Issue #70654 · pytorch/pytorch ·…

Reduce_scatter と Reduce_scatter_block

OpenMPIにはReduce_scatterとReduce_scatter_blockの2種類の集団通信が定義されています。 Reduce_scatter MPI_Reduce_scatter(3) man page (version 4.1.8) それぞれのプロセスが持つデータを集約し、その結果を直和に配布します。 int MPI_Ireduce_scatter…

CUDA-aware OpenMPIのビルド

OpenMPIはCUDA-awareをサポートしている。 すなわち、集団通信実行の際に、(ホストメモリでなく)CUDA上のメモリポインタを渡してもそのまま動作するというもの。 https://www.open-mpi.org/faq/?category=runcuda#mpi-cuda-aware-support のコードを実行す…

NVIDIA GPU の Compute Capability 一覧

Compute Capability (CC) アーキテクチャ 代表的な GPU 主な特徴 compute_52 / sm_52 Maxwell GTX 970, GTX 980, GTX 980 Ti FP16 サポートなし compute_60 / sm_60 Pascal Tesla P100, GTX 1080 初の Pascal 世代、FP16 サポート compute_61 / sm_61 Pascal…