このブログ投稿は、AI ファクトリーに関するシリーズの 1 つです。 ここで読み終わったら、シリーズの他の投稿もご覧ください。
ChatGPT が 2022 年 11 月にリリースされたとき、私たちが尋ねた質問と入力したプロンプトはシンプルでした。 「X についての物語を話してください」および「トピック Z について、A さんと B さんの間の物語を書いてください」。 当時のこれらの質問と GPT-3.5 との最初のやり取りを通じて、私たちはこの新しいトレンドのテクノロジーが私たちの日常生活にどのような影響を与えるかを特定しようとしていました。 2024 年後半の現在、AI は私たちの生活を補完し、コードのデバッグや記述、データのコンパイルや要約、自動運転車の運転などを支援するようになります。 これらは現代の AI 工場の出力であり、私たちはまだ始まったばかりです。
AI ファクトリーに関するシリーズの第 1 弾となるこの記事では、AI ファクトリーのコンポーネントと、さまざまな要素が連携して大規模な AI 駆動型ソリューションを生成する仕組みについて説明します。
AI の進化の中で、AI モデルとサービスがどのように作成、改良、展開されるかを表す例として、AI ファクトリーという概念が登場しました。 材料を加工して完成品に変える従来の製造工場と同様に、AI ファクトリーは、大容量で高性能なトレーニングと推論の要件を満たす大規模なストレージ、ネットワーク、コンピューティングへの投資です。
これらの工場内では、サーバー、グラフィックス プロセッシング ユニット (GPU)、データ プロセッシング ユニット (DPU)、および専用ハードウェアのネットワークが連携して膨大な量のデータを処理し、AI モデルをトレーニングする複雑なアルゴリズムを実行して高い精度と効率を実現します。 これらのインフラストラクチャは、大規模モデルのトレーニングとリアルタイム推論への展開に必要な膨大な計算能力を処理できるように細心の注意を払って設計されています。 高度なストレージ ソリューションを組み込んで大規模なデータセットを管理および取得し、シームレスなデータ フローを保証します。
負荷分散とネットワーク最適化により、パフォーマンスとリソース使用率が最大化され、ボトルネックが防止され、スケーラビリティが確保されます。 ハードウェアとソフトウェアのコンポーネントをこのようにオーケストレーションすることで、AI ファクトリーは最先端の AI モデルを作成し、新しいデータや進化する要件に適応しながら継続的に改良することができます。 最終的に、AI ファクトリーは AI 開発の産業化を体現し、次世代のインテリジェント アプリケーションをサポートするために必要な堅牢なインフラストラクチャを提供します。
NVIDIA CEO のジェンスン・フアン氏は Salesforce Dreamforce 2024で、「歴史上、コンピューター技術がムーアの法則よりも速く進歩したことはありません」と述べ、さらに「私たちはムーアの法則よりもはるかに速く進歩しており、おそらくムーアの法則の 2 乗に匹敵する速度だと言えます」と続けた。
AI への投資は重要な市場の差別化要因および運用効率の推進要因となるため、大規模な AI の導入がますます重要になっています。 これを実現するには、組織は継続的にモデルを構築および改良し、知識リポジトリとリアルタイム データを統合する必要があります。 AI ファクトリーのコンセプトは、AI は一度限りの取り組みではなく継続的な投資であるべきであることを強調しています。 組織が AI イニシアチブを運用化するためのフレームワークを提供し、変化するビジネスや市場の需要への適応性を高めます。
F5 は、高性能で安全な最新のアプリケーション フリートの大規模な導入をお客様に支援してきた専門知識を活かし、AI リファレンス アーキテクチャ フレームワークを開発しました。 AI アプリは最新のアプリであり、API を介して緊密に接続され、高度に分散されているため、このフレームワークは最先端の AI アプリケーションを提供するために不可欠な重要なパフォーマンス、セキュリティ、および運用上の課題に対処します。
当社のリファレンス アーキテクチャでは、包括的な AI ファクトリーを構築するために必要な 7 つの AI ビルディング ブロックを定義しています。
フロントエンド アプリケーションと推論サービス API 間のやり取りの概要を説明します。AI モデルへのリクエストの送信と応答の受信を中心に説明します。 これにより、より複雑なやり取りの基盤が構築されます。
大規模言語モデル (LLM) オーケストレーションおよび検索拡張サービスを追加することで、基本的な推論を強化します。 ベクター データベースとコンテンツ リポジトリから追加のコンテキストを取得し、それを使用してコンテキストが強化された応答を生成する方法について詳しく説明します。
検索拡張生成 (RAG) による推論に必要なデータ取り込みプロセスに焦点を当てます。 これには、データの正規化、埋め込み、ベクター データベースへの入力、RAG 呼び出し用のコンテンツの準備が含まれます。
モデルとの相互作用を通じて既存のモデルのパフォーマンスを向上させることを目的としています。 モデルを最初から再構築せずに調整し、ワークフローを微調整するために Inference および Inference with RAG からのデータ収集を重視します。
以前のチェックポイントを使用する場合もありますが、新しいモデルをゼロから構築します (再トレーニング)。 データの収集、前処理、モデルの選択、トレーニング方法の選択、トレーニング、検証/テストをカバーします。 この反復的なプロセスの目的は、特定のタスクに合わせて調整された堅牢なモデルを作成することです。
LLM オーケストレーション層をデータベースや Web サイトなどの外部ソースに接続します。 外部データを推論リクエストに統合しますが、チャンク化や埋め込みなどのドキュメント前処理タスクは含まれません。
AI アプリケーション コンポーネントの開発、保守、構成、テスト、および展開のワークフローを網羅します。 これには、フロントエンド アプリケーション、LLM オーケストレーション、ソース コントロール管理、CI/CD パイプラインが含まれます。
これらの構成要素が組み合わさって、AI ファクトリーのバックボーンを形成します。 それぞれが AI 出力の作成、展開、改良において重要な役割を果たします。 さらに、AI ファクトリーの取り組みでは、ほとんどの構成要素について、実装戦略を(リースやアウトソーシングではなく)自社で所有する傾向があるため、以下に挙げる展開モデルの中からセルフホスト型を選択することになります。
これらの各ビルディング ブロックについて、お客様は適切な展開モデルと実装戦略 (所有、リース、またはアウトソース) を選択し、AI イニシアチブのビジネス目標を達成するための最適なリファレンス アーキテクチャを定義する必要があります。 上位4つは次のとおりです。
アプリケーションの配信とセキュリティのために日々頼りにしている F5 の機能は、適切に設計された AI ファクトリーにとって重要な機能と同じです。 F5 BIG-IP Local Traffic Manager は、F5 rSeriesおよびVELOS専用ハードウェアと組み合わせることで、AI トレーニングのための高性能なデータ取り込みを可能にします。 F5 分散クラウド ネットワーク接続 安全なマルチクラウドネットワークは、異なるデータの場所を接続し、独自のデータからAIモデルへの安全な経路を作成します。 ラグ。
F5 の AI への注力はこれで終わりではありません。F5が AI アプリをあらゆる場所で保護し、配信する方法をご覧ください。
AI ファクトリーについてさらに詳しく知りたいですか? AI ファクトリー ブログ シリーズ内の他の記事もご覧ください。