サブロウ丸

Sabrou-mal サブロウ丸

主にプログラミングと数学

サーベイ: How Optical Technologies Can Innovate Intra Data Center Networks

Sato, Ken-ichi. "How optical technologies can innovate intra data center networks." 2021 International Conference on Computer Communications and Networks (ICCCN). IEEE, 2021.


光スイッチを導入したデータセンタのトラフィック制御について、複数の観点からサーベイと考察をしている

TL; DR

  • 光スイッチは電気スイッチと異なり帯域制限なしで多ポートを実現できる
  • そのような光スイッチを用いることで、flatな1層からなるネットワークトポロジを作ることで、製造(運営)コストを抑えられたり、高速なリンクスピードを使用できるといった利点がある
  • 複数の光スイッチを並列に並べ、光スイッチのコントローラを分散化させることで、ブロッキング時間の削減による待ち時間の短縮(レイテンシの削減)が可能になって嬉しい

詳細

背景

  • fat-treeベースの電気スイッチネットワークでのトポロジはハイパースケールデータセンタで一般的
  • しかし、ToRスイッチ数を増やそうとすると、電気スイッチの特性により、link スピードを制限するか、スイッチの階層を増やす必要がある。後者はコストがかかるので前者が採用される
    • 電気スイッチ帯域はradix x link speedなので、radix(ポート数)を増やそうとするとlinkスピードを制限せざるを得ないし、スイッチの階層を増やすとデバイスコストがすごい
  • link スピード(MACスピード)は実際に運用されているものよりももっと高速な技術が既にあるのに勿体無い

ハイブリッドネットワーク

電気と光スイッチのネットワークを併用した場合

  • DC内のフローは小容量フロー(多くは遅延に敏感)と大容量フロー(遅延はあまり気にしない)に分けられる
  • 実際90%以上の転送バイトが1MB -- 100MBを超える大容量フローだった、また大容量フローのせいで小容量フローが遅延して困る
  • そこで大容量フローを光ネットワークに逃す運用はどうか
  • 光スイッチの構成時間を考慮してもそこそこ大きなフローを流すなら、リンクの使用率的には問題にならない

https://user-images.githubusercontent.com/21208556/231667827-39f730cb-9519-4e0a-a7be-e73151756eb3.png

光スイッチの並列配置

  • 光スイッチを用いる場合、経路の確保のために再構成(setup)が必要な場合(blocking)があるが、光スイッチを並列に並べることでそのブロッキングの確率を下げることができる
  • さらに万が一ブロッキングされた場合でも、その通信を電気スイッチ網に流せば良い
  • そこで問題になってくるのがスイッチ制御
  • 集中管理型だと
    • トラフィックマトリックスの特定と動的な更新
    • 光回線の割り当て計算(負荷が大きいと遅延が大きくなる)
    • これらのせいで大きな待ち時間が発生し、拡張性にも限界がある
  • そのため分散管理はどうか、という提案

複数光スイッチの分散管理

  • 3way hand-shake型の接続を行う。データ送信元がOptical switch Controllerに接続リクエストを送ると、(空いている)Optical Switchを用いて送信先との接続を確保する
  • ネットワーク全体の通信状況(マトリクス)は見ずに、とりあえず送信リクエストに対して従順にネットワークを再構築していく、、という感じ

https://user-images.githubusercontent.com/21208556/232961885-e52deaa4-3b85-4770-a22d-5e706b4b2b9b.png