サブロウ丸

Sabrou-mal サブロウ丸

主にプログラミングと数学

サーベイ: Architecture and Performance Studies of 3D-Hypter-Flex-LION for Reconfigurable All-to-All HPC Networks

Liu, Gengchen, et al. "Architecture and performance studies of 3D-Hyper-FleX-LION for reconfigurable all-to-all HPC networks." SC20: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2020.

bibtex

@INPROCEEDINGS{9355261, author={Liu, Gengchen and Proietti, Roberto and Fariborz, Marjan and Fotouhi, Pouya and Xiao, Xian and Ben Yoo, S.J.}, booktitle={SC20: International Conference for High Performance Computing, Networking, Storage and Analysis}, title={Architecture and Performance Studies of 3D-Hyper-FleX-LION for Reconfigurable All-to-All HPC Networks}, year={2020}, volume={}, number={}, pages={1-16}, doi={10.1109/SC41405.2020.00030}}

TL; DR

  • 3D-Hyper-FleX-LION (AWGR: arrayed waveguide grating routerを用いた全結合ネットワーク)を提案
    • 1つのノードから複数の波長を出力(目的地ごとに波長を変えている)AWGRで波長に対応したノードに光を転送
  • 3D-Hyper-FleX-LIONでは N times N のAWGRを用いれば NNのマシン(ラックヘッド)を接続可能
  • Fat-treeと理論的に比較
    • 消費電力: MRR(microring resonators) add/drop filterや128-port switch ASIC 消費電力を決め打ちして算出
    • トランシーバ数や光ファイバ数、ホップ数などの比較

詳細

背景

  • ハイパースケールのデータセンタやHPCシステムはmulti-stageのツリーベースのEPS(電気スイッチ)アーキテクチャを持つ
    • multi-stageとはfat-treeやleaf-spineなど複数のスイッチの層、からなる接続形態
  • これは電力効率が悪く、さらに、scale-up*1とscale-out*2をしようとしてもバンド幅、radix、電気スイッチング容量の制約から厳しくなっている

どんなもの?

  • 3D-Hypter-Flex-LIONを提案、そのアーキテクチャとパフォーマンスを行なった
  • Hyper-Flex-LIONは下図の構成
    • AWGRは入力N波長出力N波長で内部で光がシュッフルされるイメージ
    • 外側のMMR(micro ring resonators)で特定の波長を別の導波路へ輸送することもできる

MMRによる共振の図(Wikipediaから リング共振器 - Wikipedia

https://upload.wikimedia.org/wikipedia/commons/thumb/0/0b/Double_Optical_Ring_Resonator.png/225px-Double_Optical_Ring_Resonator.png

  • 3D-Hypter-Flex-LIONは上記の2-D的Hypter-Flex-LIONを繋げて3-D的にしたもの
    • Hypter-Flex-LIONにヘッドノードを作成し、ヘッドノードから作成されるHypter-Flex-LIONを接続する
    • 多分4Dもいけそう

先行研究と比べてどこがすごい?

  • Fat-treeと理論的に比較
    • 消費電力: MRR(microring resonators) add/drop filterや128-port switch ASIC 消費電力を決め打ちして算出  - Fat-treeよりも消費電力が少ない(電気スイッチや光TRXsの削減による)
    • トランシーバ数や光ファイバ数、ホップ数などの比較  - 光ファイバ数を(1/10)に削減できる

技術や手法のキモはどこ?

  • 全てのノード間をつなげるAll-to-Allでかつ、波長の割り当て変更による負荷平準化可能な構成

議論はある?

TBA

次に読むべき論文は?

  • Network Traffic Characteristics of Data Centers in the Wild
  • High-Resolution Measurement of Data Center Microbursts
  • Exascale Workload Characterization and Architecture Implications
  • Flexfly: Enabling a Reconfigurable Dragonfly through Silicon Photonics

*1:高性能なCPUや大容量メモリを搭載して、個々のサーバー性能を高める方法 https://www.ohmsha.co.jp/book/9784274227752/

*2:サーバの台数を増やして性能を高める方法 https://www.ohmsha.co.jp/book/9784274227752/