サーベイ: 次世代光インターコネクトでの MPI 通信に関する研究 (2007)

滝澤真一朗, 遠藤敏夫, and 松岡聡. "次世代光インターコネクトでの MPI 通信に関する研究." コンピュータソフトウェア 26.3 (2009): 3_5-3_19.

概要
OCS経路選択アルゴリズム
関連研究におけるネットワークトポロジ

概要

背景

シングルプロセッサコアのクロック上昇率が頭打ちのため，並列処理による性能向上が必要となっている
しかしながら、複数コアを繋ぐインターコネクトで（クロスバーやFat Treeで）フルバイセクションバンド幅を実現することがコスト的に困難
バンド幅に非対称性を持たせたとしても（上流帯域を太くしない）、結局ストレージ通信も同じネットワークを使用する場合、通信性能低下が避けられない
そこで、次世代インターコネクトとしてEPSとOCSのハイブリッドが提案されている
- (Electronic Packet Switching: EPS) ネットワーク: 安価な低バンド幅電気パケット
- (Optical Circuit Switching: OCS) ネットワーク: 高バンド幅光サーキット

どんなもの?

EPS ネットワークと小規模OCS ネットワークを組み合わせたハイブリッドインターコネクト上におけるMPI用メッセージ通信方法を提案

技術や手法のキモはどこ?

EPSとOCSを組み合わせて3パターンのルーティング(下記)をベースに
- OCS ネットワーク上での直接通信経路
- OCSとEPSどちらの経路も通る
- EPSオンリー
OCSを用いてどのノードとどのノードを接続すれば良いか？を決める手法を提案
- 動的経路生成のもの(SP)とトラフィックマトリックスから静的に経路を決定するもの (CP)の二つを提案

どうやって有効だと検証した?

自作シミュレータで実施
- EPS ネットワーク側の上流・下流リンクのバンド幅比率は TSUBAME の構成と同様に 1:5 とした. すなわち, 下流リンク 1 本のバンド幅を 10Gbps とし，そのときのスイッチ下流の合計バンド幅 160Gbps の 1/5 である 32Gbps をスイッチ上流のバンド幅とした
（確実に明記はされていないが）NAS Parallel Benchmarks(NPB) [6] MG(Multigrid: 3 次元ポアソン方程式のマルチグリッド法に基づく解法)実行時のプロファイルを元にシミュレーションしている

OCS経路選択アルゴリズム

Switch Partitioning

EPSに繋がれたrankをグループとする。下の図だとグループ数は4。異なるグループ間の通信が発生した場合、（すなわちEPSを跨ぐ通信が発生した場合）そのグループ間にOCS経路を生成する。具体的にグループ内のどのrankとrankを結ぶかは事前に決めておいたルールに従う（最も小さいrankを選択するなど）

Communication Partitioning

事前に取得した通信パターンを取得。まずお互いの通信が多いrankをEPSグループにまとめる。これはグラフ分割を用いて実行。それ以外の通信経路をOCS上に構築。

フォワーディングテーブルの作成

メッセージ中継のためのフォワーディングテーブルは、バンド幅を基準とした距離ベクトル型アルゴリズムを用いて作成され、EPSネットワーク上流リンクより光回線を優先使用するルールとする。中継ノードは経路情報を交換してフォワーディングテーブルを更新することで、経路情報を同一EPSスイッチ下のノードに送信する。EPSネットワーク上流リンクを用いるのは、回線数が足りず、孤立してしまったスイッチ下ノードへの通信に限られる。