ブログ

AIファクトリーのデータ取り込みのトラフィック管理を最適化

グリフ・シェリー サムネイル
グリフ・シェリー
2024年10月29日公開

2024年夏、Nvidiaの創設者兼CEOであるジェンスン・フアン氏は、「新しいタイプのデータセンターAI工場が、人工知能という新しい商品を生み出す」と提案しました。 そこで、AI を物理的な商品のように捉えてみましょう。 こうすると、垂直統合と工業化を体現したフォードのリバールージュコンプレックスのイメージが思い浮かびます。 一方からは鉄とゴムが入り、もう一方にはフォードの自動車が出てきた。 独自のドック、100マイルの内陸鉄道線路、専用発電所、さらには独自の統合された鉄鋼、ガラス、製紙工場を備えたザ・ルージュは、1日24時間稼働し、年間約150万台の自動車を製造しました。

同様に、大量かつ高性能なトレーニングおよび推論モデルを提供する現在および将来の AI 工場は、大量の原材料を摂取します。 つまり、データです。 構造化、非構造化、ビデオ、テキストなど。 これらのファクトリーは、このデータをトークン化された出力に変換し、さまざまなアプリケーションで活用できるようにします。 そして、The Rouge Complex が制作の各段階を正確に制御する必要があったのと同様に、AI ワークロードには、データの取り込み、処理、配信、つまりロジスティクスを処理するための堅牢なトラフィック管理システムが必要です。 適切な交通管理ソリューションにより、AI 工場は現場から原材料を取り出し、使用可能にすることができます。 適切なロジスティクス ツールを導入することで、チームはシームレスなデータ フロー、高スループット、低レイテンシ、セキュリティを確保できます。これは、組立ラインをあらゆる段階でスムーズに稼働させるのと同様です。  

すべての AI 工場に必要なもの

2020年のハーバード・ビジネス・レビューでは、アリババの関連会社であるアント・グループが、AIファクトリーから実用的なインテリジェンスを作成し、「従業員数が10分の1未満で、米国最大手の銀行の10倍以上の顧客にサービスを提供しながら、さまざまなビジネスを管理している」方法について概説しました。 Ant Group が AI 工場の構築を概念化する方法も同様に説得力があります。

「どの工場にも4つのコンポーネントが不可欠です。 1 つ目はデータ パイプラインです。これは、体系的、持続可能、かつスケーラブルな方法でデータを収集、クリーンアップ、統合、保護する半自動プロセスです。 2 つ目は、ビジネスの将来の状態やアクションに関する予測を生成するアルゴリズムです。 3 つ目は実験プラットフォームであり、新しいアルゴリズムに関する仮説をテストして、その提案が意図した効果をもたらしているかどうかを確認します。 4 番目はインフラストラクチャです。このプロセスをソフトウェアに埋め込み、社内外のユーザーに接続するシステムです。」

以前の AI ファクトリー シリーズで、F5 は AI ファクトリーを、大容量で高性能なトレーニングと推論の要件を満たす大規模なストレージ、ネットワーク、コンピューティングへの投資と定義しました。 これが、Ant Group のリストにある最初と 4 番目の要素が特に興味深い理由です。AI モデルが取り込むデータを安全かつ効率的に管理するために必要なシステムを確立するという課題は、AI ファクトリーが価値を生み出すために周囲のインフラストラクチャをどのように開発すべきかという問題を前面に押し出しています。

AI データ取り込みのトラフィック管理は、数十億のパラメータとメディアリッチな AI データ トラフィックを管理し、機械学習とトレーニングの目的で AI ファクトリーに転送する継続的なプロセスです。 ここで、高性能なトラフィック管理ソリューションが役立ち、トラフィックを AI ファクトリーに送り込みます。 このようなソリューションがなければ、チームはトラフィックの流れを維持するために接続を再利用する必要に迫られたり、ストレージ インフラストラクチャの制限に達したりする可能性があります。どちらも、AI ファクトリーが希望どおりの最適化されたペースと規模で実行するために要求される大容量、低遅延のデータ転送要件には適していません。

AIデータトラフィック図の管理

AI ファクトリーへの、AI ファクトリーを通過する、および AI ファクトリー間の AI データ トラフィックを管理します。

AI 工場の稼働を継続する

しかし、この分野の進歩の速度は停滞しているわけではありません。 ますます複雑化する AI モデルでは、より頻繁かつ大量のデータ入力が必要になります。 AI モデルでは、クラウドまたはオンプレミスでのデータの配置が非常に重要になるため、データ重力の課題が生じます。 将来の AI データ需要の引力に耐えられるように構築された AI ファクトリーには、受信したデータからより迅速に洞察を得るための要件に対応できる拡張可能なインフラストラクチャが必要です。  AI ファクトリー インフラストラクチャは、最終的に、それがサポートする AI モデルの成功とビジネス価値を左右する可能性があります。 リッチ メディアの消費が急速に増加し、一部のクラウド プロバイダーを介して処理される場合、ネットワーク トラフィックと関連コストが大幅に増加する可能性があります。 したがって、このような状況に取り組んでいる企業は、効率的な AI 学習モデルに必要な高速データ スループットを維持しながらクラウドでのデータ転送と処理に関連する複雑さと費用を管理するという、2 つの課題に直面しています。

AI ファクトリーに関する最初の記事で概説した 4 つの AI ファクトリー展開タイプ (AI-SaaS、クラウド ホスト、セルフ ホスト、エッジ ホスト) を慎重に検討することで、企業はクラウド帯域幅への依存を排除または軽減し、これらの複雑さを管理できるようになります。 データをローカルで処理すると、クラウド帯域幅の問題がなくなるだけではありません。 また、機密性の高いトレーニング データ セットを完全に制御することもできます。 これにより、組織はデータの保存、アクセス、処理方法を制御できるようになり、機密情報を組織の安全なネットワーク内に保持することでデータの露出を最小限に抑えることができるため、規制要件 (GDPR、HIPAA、PCI DSS など) を満たしやすくなります。

インフラの改善は AI 工場の価値向上につながります

AI データ トラフィックとアプリケーション トラフィックは、F5 BIG-IP Local Traffic Manager (LTM)および次世代ハードウェアソリューションと同様の方法で対話します。 つまり、従来のアプリケーション トラフィック フローを最適化するのと同じように、チームはFastL4プロファイルなどのツールを使用して AI データ トラフィック フローを最適化し、仮想サーバーのパフォーマンスとスループットを向上させることができます。 TCP 最適化を活用して、ネットワーク パフォーマンスにとって重要な TCP 接続をシステムが処理する方法を微調整できます。 さらに、BIG-IP のOneConnect を導入して、BIG-IP システムとバックエンド プール メンバー間で作成された接続を効率的に管理することで、ネットワーク スループットを向上させることもできます。 AI ファクトリー間で AI データ トラフィックを分散するソリューションを探している組織は、それを見つけるために遠くまで探す必要はありません。 F5 は 20 年以上にわたってアプリケーション トラフィック管理を最適化するツールを開発しており、BIG-IP LTM は AI データ取り込みトラフィックの処理に最適です。

AI アプリケーションは、現代のアプリケーションの中でも最も近代的なものです。 堅牢で多用途な交通管理ソリューションを導入しないと、現場で使用可能なデータが失われ、AI モデルがそこから得られる価値が消えてしまいます。 ルージュにはドックと何マイルにも及ぶ鉄道線路があり、AI 工場には BIG-IP のような F5 ソリューションがあります。

F5 の AI への注力はこれで終わりではありません。F5が AI アプリをあらゆる場所で保護し、配信する方法をご覧ください。