インフラストラクチャのルネッサンスには、「サーバーにサービスを提供させ、推論を推論させる」というキャッチフレーズがあります。
テクノロジーの初期の頃、私は SSL アクセラレータのテストと分析に何年も費やしました。 これらの小さなカードは、デジタル ビジネスと商取引の爆発的な成長から生じた重大な問題、つまり SSL を使用したセキュリティ機能が CPU サイクルを消費し、パフォーマンスの問題の大きな原因となっているという問題に対処するために設計されました。 そこで、F5 を含む業界では、これらの機能をオフロードしてサーバーでサービスを提供できるハードウェアを開発しました。
今日、AI、特に推論において同じ問題が発生しており、皮肉にも、同じ種類の解決策、つまりサーバーが推論を提供できるようにする専用のハードウェアが登場しています。
そうですね、文法的に正しいかどうかはわかりませんが、とりあえずこれでいきましょうか。 ありがとう。
すでに指摘したように、 AI アプリケーションは、そのアーキテクチャ構造において最新のアプリケーションです。 しかし、AI アプリケーションの中心は推論であり、そこが AI が「通常の」最新のアプリケーションと異なる点です。
AI コンピューティング コンプレックスが CPU と GPU のバンクからどのように構築されるかを見てきました。 これらのコンピューティング リソースには、クラスターを効率的に動作させるために維持する必要がある比率とバランスがあります。 CPU が追いつけなくなるたびに、非常に高価な GPU がアイドル状態になります。
ご存知のように、推論サーバーの処理のうち、実際に推論が行われるのは一部だけです。 その多くは、HTTP および API リクエストの標準的な Web 処理です。 これは、CPU を使用する推論サービスの部分であり、多くの場合、過負荷になります。 そうなると、サーバー側の推論がリクエストの処理に追われ、GPU の使用量はますます少なくなります。
おそらくこれが、組織の 15% が、利用可能な GPU および購入した GPU の 50% 未満しか使用されていないと報告している理由です ( State of AI Infrastructure at Scale 2024 )。
ここでの問題の一部は、インフラストラクチャ作業であるべきものに CPU リソースが使用されていることです。 トラフィック管理、セキュリティ操作、監視などのサービスも CPU リソースを消費し、システム全体の負荷に影響します。 これにより、推論サーバーの容量とパフォーマンスが低下し、GPU リソースの使用率が低下します。
幸いなことに、このインフラストラクチャのルネッサンスは、インフラストラクチャ操作を新しい処理ユニットである DPU にオフロードすることで、推論作業用の CPU リソースを節約することに重点が置かれています。
さて、DPU の興味深い点は、実際には 2 つの異なるモードをサポートしていることです。 1 つは、Infiniband または Ethernet 経由の RDMA などのネットワークをオフロードできることです。 これは、AI モデルのトレーニングや大規模なユーザーベースの推論のスケールアウトなど、大量のデータが流れる AI コンピューティング コンプレックスを構築するときに非常に役立ちます。
ただし、DPU は「DPU」モードで構成することもできます。 これにより、Kubernetes では、アプリケーション配信やセキュリティなどの機能を実行できる別のノードとして表示されます。 これにより、予測可能性が低く、要求の厳しいインフラストラクチャ ワークロードをクラスター内の独自のノードに「オフロード」することで、推論サービス用の CPU コンピューティングが効果的に予約されます。 これにより、 F5 BIG-IP Next SPK (Kubernetes 用サービス プロキシ)などのソリューションは、API 経由で受信 NS AI 要求を管理および保護し、AI コンピューティング コンプレックス内の適切な推論サービスに適切に配布できるようになります。
このアプローチにより、当社のソリューションは Kubernetes ネイティブであるため、組織はインフラストラクチャの Kubernetes 管理に関する既存の知識と投資を活用できます。 コア、クラウド、エッジなど、操作はクラスター レベルで行われ、すべての環境で一貫しているため、問題にはなりません。
また、アプリケーション配信とセキュリティ サービスの管理責任も分離されるため、ネットワークおよびセキュリティ運用チームは、開発チームと ML 運用チームが管理する AI ワークロードとは独立してインフラストラクチャを処理できるようになります。
最後に、アプリケーションの配信とセキュリティに DPU を活用することで、組織のマルチテナントのニーズをより適切にサポートできます。 これは、顧客のワークロードを分離するだけでなく、ワークロードをモデル化することです。 私たちの調査によると、組織はすでに平均 2.9 種類の異なるモデルを使用しています。 一貫したソリューションを通じてそれぞれの使用を管理できるようになると、各モデルによって消費および生成されるデータのセキュリティとプライバシーに対する信頼が高まります。
F5 がAI 関連のユースケースでNVIDIA DPU と連携するのは今回が初めてではありません。 しかし、あらゆる規模の顧客がスケーラブルで安全な AI コンピューティング コンプレックスを構築し、あらゆる環境で推論のパワーを安全かつ確実に活用し、 GPU リソースの使用を最適化して、何もせずに待機することがないようにするためのソリューションを共同で開発するのは今回が初めてです。