ブログ | CTO オフィス

AI 推論がデータ センター アーキテクチャに与える影響

ロリ・マクヴィッティ サムネイル
ロリ・マクヴィッティ
2024 年 6 月 13 日公開

IT 予算が戦略の成否を左右すると言われています。 もしそうだとしたら、AI戦略は健在だ。 

弊社の最新の調査によると、組織は平均して IT 予算の 18% を AI に割り当てています。しかし、その 18% がどのように割り当てられているかによって、組織の AI 戦略を垣間見ることができます。

現在、AI 予算の約 18% が AI サービス、つまり何らかの AI ツールを統合または提供するサードパーティ アプリケーションに充てられています。 残りはモデル(19%)、開発(16%)、セキュリティ(9%)、データテクノロジー(11%)、GPU(9%)に充てられます。 

トレーニング(50%)と推論(50%)の支出が均等に分割されていること、および AI がパブリック クラウド(80%)とオンプレミス(54%)に分散されるという調査結果と合わせると、組織は AI ライフサイクル全体をサポートするためにインフラストラクチャの大幅な変更を計画していると推測できます。

そのサポートの一部には、ネットワークを新たに見直すことが必要です。

トレーニングと推論の両方をサポートするインフラストラクチャを構築するには、Kubernetes などの最新のアプリケーション環境と、AI インスタンス間およびモデルとそれらを使用するアプリケーション間でトラフィックがどのように流れるかに細心の注意を払う必要があります。 

NVIDIA はアクセラレーション テクノロジー (GPU、DPU、IPU など) を提供する唯一の企業ではありませんが、リファレンス アーキテクチャに関しては先頭に立っています。 こうした詳細の中に、ネットワークとスケーラビリティ アーキテクチャに大きな影響を与える点が見つかります。

AI ポッド、クラスター、ファクトリー

現在、Kubernetes 特有の用語の使用に関して業界では大きな不安が生じています。 オペレーターはポッドとクラスターの定義を理解するようになりましたが、大手 GPU プロバイダーは大規模な推論の展開に関してはそれらの定義を曖昧にしています。

たとえば、NVIDIA は Kubernetes クラスターである AI ポッドを参照します。 そして、関連するクラスターのセットを AI ファクトリーと呼びます。 

私は用語について議論するためにここに来たわけではありません (私はそのような議論にほとんど勝てません)。その代わりに、これらの AI 機能の単位と、それがネットワークにとって何を意味するかに焦点を当てています。

特に、生成 AI を拡張する際の現実の 1 つは、コンピューティング サイクルの需要です。 具体的には、GPU コンピューティング サイクルです。 この需要に応えるには、特に AI サービスのプロバイダーにとっては、複雑な AI コンピューティング ユニットを構築する必要があります。 これらのユニットは NVIDIA が AI ポッドと呼んでいるものですが、他の企業もそれぞれ独自の特別な名前を付けるでしょう。 それらは本質的に Kubernetes クラスターです。

これは、AI コンピューティング ユニット内部の EW トラフィックが大量になることを意味しますが、それらの AI コンピューティング ユニットへのNS トラフィックも大量になることを意味します。 そして、私たちは、従来のデータセンター インフラストラクチャと新興の AI コンピューティング コンプレックスの境界に大きな変化が起きていることに気づいています。

データセンターと AI がどのように相互接続されるかを示す図。

特にテナントごとのネットワーク分離を必要とするサービス プロバイダーの場合、その境界では多くのことが発生します。 AI リソースに過負荷をかけないようにレート調整を含む L4-7 トラフィック管理もかなり必要です。 また、スケールと分散のための負荷分散や、高度な CGNAT 機能などのネットワーク サービスも期待されています。

こうした機能の多くは、生産性向上からコードやコンテンツの生成、ワークフローの自動化まで、拡大するビジネス ユース ケースをサポートするために AI 実装を拡張したいと考えている企業にも必要とされています。もちろん、運用に AI を使用することへの関心も高まっています。 テナントごとの分離は企業の要件ではないかもしれませんが、自動化や運用分析などの優先度の高い AI ワークロードが優先度の低い AI ワークロードによって妨げられないようにするのに役立ちます。

サービスプロバイダーであろうと企業であろうと、データセンターはネットワークにおいて大きな変化を遂げることになります。 従来のデータセンター アーキテクチャに AI ワークロードを挿入すると、拡張が不可能になったり、信頼性の高い運用が不可能になったりする可能性があります。

データ センター アーキテクチャの変更を理解することは重要ですが、 BIG-IP Next SPKなどのツールやテクノロジを用意して、データ センター ネットワークを正常に最新化して、あらゆる AI ワークロードと、最終的にそれらに依存するビジネスをサポートするために必要な機能を提供することが重要です。