2025-03-01から1ヶ月間の記事一覧
Writing Distributed Applications with PyTorch — PyTorch Tutorials 2.6.0+cu124 documentation UCC-backend(ProcessGroupUCC)について ProcessGroupへの追加。Feb, 2022 [RFC] UCC integration in ProcessGroupNCCL · Issue #70654 · pytorch/pytorch ·…
OpenMPIにはReduce_scatterとReduce_scatter_blockの2種類の集団通信が定義されています。 Reduce_scatter MPI_Reduce_scatter(3) man page (version 4.1.8) それぞれのプロセスが持つデータを集約し、その結果を直和に配布します。 int MPI_Ireduce_scatter…
OpenMPIはCUDA-awareをサポートしている。 すなわち、集団通信実行の際に、(ホストメモリでなく)CUDA上のメモリポインタを渡してもそのまま動作するというもの。 https://www.open-mpi.org/faq/?category=runcuda#mpi-cuda-aware-support のコードを実行す…
Compute Capability (CC) アーキテクチャ 代表的な GPU 主な特徴 compute_52 / sm_52 Maxwell GTX 970, GTX 980, GTX 980 Ti FP16 サポートなし compute_60 / sm_60 Pascal Tesla P100, GTX 1080 初の Pascal 世代、FP16 サポート compute_61 / sm_61 Pascal…