ブログ

AI ファクトリーとは?

ハンター・スミットのサムネイル
ハンター・スミット
2024年10月11日公開

ChatGPT が 2022 年 11 月にリリースされたとき、私たちが尋ねた質問と入力したプロンプトはシンプルでした。 「X についての物語を話してください」および「トピック Z について、A さんと B さんの間の物語を書いてください」。 当時のこれらの質問と GPT-3.5 との最初のやり取りを通じて、私たちはこの新しいトレンドのテクノロジーが私たちの日常生活にどのような影響を与えるかを特定しようとしていました。 2024 年後半の現在、AI は私たちの生活を補完し、コードのデバッグや記述、データのコンパイルや要約、自動運転車の運転などを支援するようになります。 これらは現代の AI 工場の出力であり、私たちはまだ始まったばかりです。

AI ファクトリーに関するシリーズの第 1 弾となるこの記事では、AI ファクトリーのコンポーネントと、さまざまな要素が連携して大規模な AI 駆動型ソリューションを生成する仕組みについて説明します。

AI ファクトリーの定義

AI の進化の中で、AI モデルとサービスがどのように作成、改良、展開されるかを表す例として、AI ファクトリーという概念が登場しました。 材料を加工して完成品に変える従来の製造工場と同様に、AI ファクトリーは、大容量で高性能なトレーニングと推論の要件を満たす大規模なストレージ、ネットワーク、コンピューティングへの投資です。

これらの工場内では、サーバー、グラフィックス プロセッシング ユニット (GPU)、データ プロセッシング ユニット (DPU)、および専用ハードウェアのネットワークが連携して膨大な量のデータを処理し、AI モデルをトレーニングする複雑なアルゴリズムを実行して高い精度と効率を実現します。 これらのインフラストラクチャは、大規模モデルのトレーニングとリアルタイム推論への展開に必要な膨大な計算能力を処理できるように細心の注意を払って設計されています。 高度なストレージ ソリューションを組み込んで大規模なデータセットを管理および取得し、シームレスなデータ フローを保証します。

負荷分散とネットワーク最適化により、パフォーマンスとリソース使用率が最大化され、ボトルネックが防止され、スケーラビリティが確保されます。 ハードウェアとソフトウェアのコンポーネントをこのようにオーケストレーションすることで、AI ファクトリーは最先端の AI モデルを作成し、新しいデータや進化する要件に適応しながら継続的に改良することができます。 最終的に、AI ファクトリーは AI 開発の産業化を体現し、次世代のインテリジェント アプリケーションをサポートするために必要な堅牢なインフラストラクチャを提供します。

AI 工場がなぜ重要なのか?

NVIDIA CEO のジェンスン・フアン氏は Salesforce Dreamforce 2024で、「歴史上、コンピューター技術がムーアの法則よりも速く進歩したことはありません」と述べ、さらに「私たちはムーアの法則よりもはるかに速く進歩しており、おそらくムーアの法則の 2 乗に匹敵する速度だと言えます」と続けた。

AI への投資は重要な市場の差別化要因および運用効率の推進要因となるため、大規模な AI の導入がますます重要になっています。 これを実現するには、組織は継続的にモデルを構築および改良し、知識リポジトリとリアルタイム データを統合する必要があります。 AI ファクトリーのコンセプトは、AI は一度限りの取り組みではなく継続的な投資であるべきであることを強調しています。 組織が AI イニシアチブを運用化するためのフレームワークを提供し、変化するビジネスや市場の需要への適応性を高めます。

AI ファクトリーのコンポーネント

F5 は、高性能で安全な最新のアプリケーション フリートの大規模な導入をお客様に支援してきた専門知識を活かし、AI リファレンス アーキテクチャ フレームワークを開発しました。 AI アプリは最新のアプリであり、API を介して緊密に接続され、高度に分散されているため、このフレームワークは最先端の AI アプリケーションを提供するために不可欠な重要なパフォーマンス、セキュリティ、および運用上の課題に対処します。

7 つの AI 構成要素

当社のリファレンス アーキテクチャでは、包括的な AI ファクトリーを構築するために必要な 7 つの AI ビルディング ブロックを定義しています。

1. 推論

フロントエンド アプリケーションと推論サービス API 間のやり取りの概要を説明します。AI モデルへのリクエストの送信と応答の受信を中心に説明します。 これにより、より複雑なやり取りの基盤が構築されます。

推論

2. 検索拡張生成

大規模言語モデル (LLM) オーケストレーションおよび検索拡張サービスを追加することで、基本的な推論を強化します。 ベクター データベースとコンテンツ リポジトリから追加のコンテキストを取得し、それを使用してコンテキストが強化された応答を生成する方法について詳しく説明します。

検索拡張図

3. RAG コーパス管理

検索拡張生成 (RAG) による推論に必要なデータ取り込みプロセスに焦点を当てます。 これには、データの正規化、埋め込み、ベクター データベースへの入力、RAG 呼び出し用のコンテンツの準備が含まれます。

ぼろ図

4. 微調整

モデルとの相互作用を通じて既存のモデルのパフォーマンスを向上させることを目的としています。 モデルを最初から再構築せずに調整し、ワークフローを微調整するために Inference および Inference with RAG からのデータ収集を重視します。

微調整図

5. トレーニング

以前のチェックポイントを使用する場合もありますが、新しいモデルをゼロから構築します (再トレーニング)。 データの収集、前処理、モデルの選択、トレーニング方法の選択、トレーニング、検証/テストをカバーします。 この反復的なプロセスの目的は、特定のタスクに合わせて調整された堅牢なモデルを作成することです。

トレーニング図

6. 外部サービス統合

LLM オーケストレーション層をデータベースや Web サイトなどの外部ソースに接続します。 外部データを推論リクエストに統合しますが、チャンク化や埋め込みなどのドキュメント前処理タスクは含まれません。

外部サービス図

7. 発達

AI アプリケーション コンポーネントの開発、保守、構成、テスト、および展開のワークフローを網羅します。 これには、フロントエンド アプリケーション、LLM オーケストレーション、ソース コントロール管理、CI/CD パイプラインが含まれます。

発達

これらの構成要素が組み合わさって、AI ファクトリーのバックボーンを形成します。 それぞれが AI 出力の作成、展開、改良において重要な役割を果たします。 さらに、AI ファクトリーの取り組みでは、ほとんどの構成要素について、実装戦略を(リースやアウトソーシングではなく)自社で所有する傾向があるため、以下に挙げる展開モデルの中からセルフホスト型を選択することになります。

4 つの展開モデル

これらの各ビルディング ブロックについて、お客様は適切な展開モデルと実装戦略 (所有、リース、またはアウトソース) を選択し、AI イニシアチブのビジネス目標を達成するための最適なリファレンス アーキテクチャを定義する必要があります。 上位4つは次のとおりです。

  • AI-SaaSでは、推論サービスの Software as a Service (SaaS) 実装を使用し、サービス プロバイダーがインフラストラクチャ、モデルの更新、スケーリングを管理します。 ユーザーは、基盤となるメンテナンスを気にすることなく、API を通じてサービスと対話します。 この展開モデルは、大きなオーバーヘッドなしで使いやすさと迅速な統合を求める企業に最適です。 また、迅速なスケーラビリティと最新の機能や改善点へのアクセスも可能になります。
  • クラウドホスト型の展開では、クラウド サービス プロバイダー (CSP) を Infrastructure as a Service (IaaS) または Platform as a Service (PaaS) として使用して推論サービスを管理します。 このモデルでは、ユーザーは構成、スケーリング、メンテナンスなどのサービスの管理を担当しますが、CSP の堅牢なインフラストラクチャとツールのメリットを享受できます。 このモデルは柔軟性と制御性を備えているため、特定の要件と技術的専門知識を持つ組織に適しています。 また、他のクラウドネイティブ サービスやツールとのシームレスな統合も可能になります。
  • セルフホスト型の展開では、セルフ管理のプライベート データ センターまたはコロケーション サービス内で推論サービスを管理する必要があります。 このモデルは最高レベルの制御とカスタマイズを提供し、組織がインフラストラクチャとサービスを特定のニーズに合わせてカスタマイズできるようにします。 ただし、メンテナンス、更新、スケーリングには多大なリソースも必要になります。 クラウドベースのソリューションでは満たせない厳格なセキュリティ、コンプライアンス、パフォーマンス要件を持つ組織によって選択されることが多いです。
  • エッジホスト型の展開では、小売キオスク、IoT デバイス、その他のローカライズされた環境などのエッジで AI または機械学習 (ML) サービスを実行します。 このモデルは、データをソースの近くで処理することでレイテンシを削減し、リアルタイム アプリケーションや、インターネット接続が制限されているか断続的なシナリオに最適です。 堅牢なローカル ハードウェアおよびソフトウェア管理が必要ですが、即時のローカルな意思決定を必要とするユース ケースでは大きなメリットが得られます。 エッジホスト型の展開は、小売、製造、医療などの業界で特に価値があります。

F5 は AI アプリケーションをどこにでも提供し、保護します

アプリケーションの配信とセキュリティのために日々頼りにしている F5 の機能は、適切に設計された AI ファクトリーにとって重要な機能と同じです。 F5 BIG-IP Local Traffic Manager は、F5 rSeriesおよびVELOS専用ハードウェアと組み合わせることで、AI トレーニングのための高性能なデータ取り込みを可能にします。 F5 分散クラウド ネットワーク接続 安全なマルチクラウドネットワークは、異なるデータの場所を接続し、独自のデータからAIモデルへの安全な経路を作成します。 ラグ

F5 の AI への注力はこれで終わりではありません。F5が AI アプリをあらゆる場所で保護し、配信する方法をご覧ください。