Liu, Gengchen, et al. "Architecture and performance studies of 3D-Hyper-FleX-LION for reconfigurable all-to-all HPC networks." SC20: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2020.
@INPROCEEDINGS{9355261,
author={Liu, Gengchen and Proietti, Roberto and Fariborz, Marjan and Fotouhi, Pouya and Xiao, Xian and Ben Yoo, S.J.},
booktitle={SC20: International Conference for High Performance Computing, Networking, Storage and Analysis},
title={Architecture and Performance Studies of 3D-Hyper-FleX-LION for Reconfigurable All-to-All HPC Networks},
year={2020},
volume={},
number={},
pages={1-16},
doi={10.1109/SC41405.2020.00030}}
TL; DR
- 3D-Hyper-FleX-LION (AWGR: arrayed waveguide grating routerを用いた全結合ネットワーク)を提案
- 1つのノードから複数の波長を出力(目的地ごとに波長を変えている)AWGRで波長に対応したノードに光を転送
- 3D-Hyper-FleX-LIONでは N times N のAWGRを用いれば NNのマシン(ラックヘッド)を接続可能
- Fat-treeと理論的に比較
詳細
背景
- ハイパースケールのデータセンタやHPCシステムはmulti-stageのツリーベースのEPS(電気スイッチ)アーキテクチャを持つ
- multi-stageとはfat-treeやleaf-spineなど複数のスイッチの層、からなる接続形態
- これは電力効率が悪く、さらに、scale-up*1とscale-out*2をしようとしてもバンド幅、radix、電気スイッチング容量の制約から厳しくなっている
どんなもの?
- 3D-Hypter-Flex-LIONを提案、そのアーキテクチャとパフォーマンスを行なった
- Hyper-Flex-LIONは下図の構成
- AWGRは入力N波長出力N波長で内部で光がシュッフルされるイメージ
- 外側のMMR(micro ring resonators)で特定の波長を別の導波路へ輸送することもできる
MMRによる共振の図(Wikipediaから リング共振器 - Wikipedia )
先行研究と比べてどこがすごい?
- Fat-treeと理論的に比較
技術や手法のキモはどこ?
- 全てのノード間をつなげるAll-to-Allでかつ、波長の割り当て変更による負荷平準化可能な構成
議論はある?
次に読むべき論文は?
- Network Traffic Characteristics of Data Centers in the Wild
- High-Resolution Measurement of Data Center Microbursts
- Exascale Workload Characterization and Architecture Implications
- Flexfly: Enabling a Reconfigurable Dragonfly through Silicon Photonics
*1:高性能なCPUや大容量メモリを搭載して、個々のサーバー性能を高める方法 https://www.ohmsha.co.jp/book/9784274227752/
*2:サーバの台数を増やして性能を高める方法 https://www.ohmsha.co.jp/book/9784274227752/