BLOG

AIファクトリーとは何か?

Hunter Smit サムネール
Hunter Smit
Published October 11, 2024

ChatGPTが2022年11月にリリースされたとき、私たちが尋ねた質問と入力したプロンプトはシンプルなものだった: 「Xについての話をしてください 「と 」トピックZについての人物Aと人物Bの間の物語を書いてください"。これらの質問とGPT-3.5との最初のやりとりを通じて、私たちはこの新しいトレンド技術が私たちの日常生活にどのような影響を与えるかを見極めようとしていた。2024年後半の現在、AIは私たちの生活を補っている。コードのデバッグや記述、データのコンパイルや要約、自律走行車の運転など、ほんの一例を挙げればきりがない。これらは現代のAI工場から生み出されるアウトプットであり、まだ始まったばかりなのだ。

AIファクトリーに関するシリーズの第1回であるこの記事では、AIファクトリーの構成要素と、AI主導のソリューションを大規模に生成するためにさまざまな要素がどのように連携するのかを探る。

AIファクトリーの定義

AIが進化する中、AIモデルやサービスがどのように作られ、洗練され、展開されるかを示すアナロジーとして、AIファクトリーという概念が登場した。材料を集めて完成品に変える伝統的な製造工場のように、AI工場は、大量で高性能なトレーニングと推論の要件に対応する大規模なストレージ、ネットワーク、コンピューティングへの投資であります。

これらのファクトリー内では、サーバー、グラフィック・プロセッシング・ユニット(GPU)、データ・プロセッシング・ユニット(DPU)、専用ハードウェアのネットワークが連携して膨大な量のデータを処理し、複雑なアルゴリズムを実行してAIモデルを学習させ、高い精度と効率を達成している。これらのインフラは、大規模なモデルの学習とリアルタイム推論に必要な膨大な計算能力を処理できるよう、綿密に設計されています。これらのインフラには、膨大なデータセットを管理・検索するための高度なストレージ・ソリューションが組み込まれており、シームレスなデータフローを実現します。

ロードバランシングとネットワーク最適化により、パフォーマンスとリソース利用を最大化し、ボトルネックを防ぎ、スケーラビリティを確保します。このハードウェアとソフトウェア・コンポーネントのオーケストレーションにより、AIファクトリーは最先端のAIモデルを生産し、継続的に改良し、新しいデータと進化する要件に適応することができる。最終的に、AIファクトリーはAI開発の産業化を具現化し、次世代のインテリジェント・アプリケーションをサポートするために必要な堅牢なインフラを提供します。

なぜAIファクトリーが重要なのか?

エヌビディアのジェンセン・フアン最高経営責任者(CEO)はSalesforceDreamforce 2024で、「歴史上、コンピュータ技術がムーアの法則より速く動いた時代はない」と述べ、さらに「我々はムーアの法則よりはるかに速く動いており、ムーアの法則の2乗が容易であることは間違いない」と続けた。

AIへの投資が市場差別化の重要な要素となり、業務効率を高める原動力となるため、AIを大規模に展開することがますます不可欠となっている。これを達成するために、組織は継続的にモデルを構築・改良し、ナレッジ・リポジトリとリアルタイム・データを統合する必要がある。AIファクトリーのコンセプトは、AIは1回限りの取り組みではなく、継続的な投資であるべきだと強調している。AIファクトリーは、組織がAIイニシアチブを運用化するためのフレームワークを提供し、変化するビジネスや市場の需要への適応性を高めます。

AIファクトリーの構成要素

F5は、お客様が高パフォーマンスでセキュアなモダン・アプリケーション・フリート(アプリケーション群)を大規模に展開するのを支援する当社の専門知識に基づき、AIリファレンス・アーキテクチャ・フレームワークを開発しました。AIアプリケーションはモダンアプリケーションの中でも最もモダンなものであり、APIを介して高度に接続され、高度に分散されていることから、このフレームワークは、最先端のAIアプリケーションを提供するために不可欠なパフォーマンス、セキュリティ、運用に関する重要な課題に対応しています。

AI Reference Architecture diagram

F5のAIリファレンス・アーキテクチャ図

7つのAIビルディング・ブロック

当社のリファレンス・アーキテクチャでは、包括的なAIファクトリーを構築するために必要な7つのAIビルディング・ブロックを定義しています:

1. 推論

フロントエンド・アプリケーションと推論サービスAPI間のインタラクションについて概説する。これは、より複雑なインタラクションのための基礎となります。

inference

2. リトリーバル・アグメンテッド・ジェネレーション

大規模言語モデル(LLM)オーケストレーションと検索拡張サービスを追加することで、基本的なInferenceを強化する。ベクターデータベースやコンテンツリポジトリから追加のコンテキストを取得し、コンテキストを強化したレスポンスを生成するために使用されます。

retrieval augmentation diagram

3. RAGコーパス・マネジメント

RAG(Retrieval Augmented Generation)を用いた推論に必要なデータ取り込みプロセスに焦点を当てる。データの正規化、埋め込み、ベクトルデータベースへの入力、RAG呼び出しのためのコンテンツの準備などが含まれます。

rag diagram

4. ファイン・チューニング

モデルとの相互作用を通じて、既存のモデルのパフォーマンスを向上させることを目的とする。モデルをゼロから再構築することなく調整し、ワークフローの微調整のためにInferenceとInference with RAGからデータを収集することに重点を置きます。

fine-tuning diagram

5. トレーニング

以前のチェックポイントを使用する場合もあるが、一から新しいモデルを構築する(再トレーニング)。データの収集、前処理、モデルの選択、トレーニング方法の選択、トレーニング、検証/テストが含まれる。この反復プロセスは、特定のタスクに合わせたロバストなモデルを作成することを目的としています。

training diagram

6. 外部サービス統合

LLMオーケストレーションレイヤーをデータベースやウェブサイトなどの外部ソースに接続する。外部データを推論リクエストに統合するが、チャンキングや埋め込みなどの文書前処理タスクは含みません。

external-services diagram

7. 開発

AIアプリケーションコンポーネントの開発、保守、設定、テスト、デプロイのためのワークフローを包含する。フロントエンド・アプリケーション、LLMオーケストレーション、ソース・コントロール管理、CI/CDパイプラインが含まれます。

development

これらのビルディング・ブロックが一体となって、AIファクトリーのバックボーンを形成している。それぞれがAIアウトプットの作成、展開、改良において重要な役割を果たす。さらに、AIファクトリー構想は、ほとんどのビルディング・ブロックの実装戦略を(リースやアウトソーシングよりも)自社で所有することに適している傾向があり、その結果、以下に挙げる展開モデルのうち、セルフホスティングを選択することになる。

4つの展開モデル

これらのビルディング・ブロックごとに、顧客は適切な導入モデルと導入戦略(自社所有、リース、アウトソース)を選択し、AIイニシアチブのビジネス目標を達成するための最適なリファレンス・アーキテクチャを定義する必要がある。以下はその上位4つであります:

  • AI-SaaSでは、推論サービスのSaaS(Software as a Service)実装を使用し、サービスプロバイダーがインフラ、モデルの更新、スケーリングを管理する。ユーザーはAPIを通じてサービスとやり取りするため、基本的なメンテナンスの心配はない。このデプロイメント・モデルは、大きなオーバーヘッドなしに、使いやすさと迅速な統合を求めるビジネスにとって理想的です。また、迅速なスケーラビリティと最新の機能や改善へのアクセスも可能です。
  • クラウドホスト型デプロイメントでは、Infrastructure as a Service(IaaS)またはPlatform as a Service(PaaS)としてクラウドサービスプロバイダ(CSP)を使用して推論サービスを管理する。このモデルでは、ユーザーは設定、スケーリング、メンテナンスなど、サービスの管理に責任を持つが、CSPの堅牢なインフラとツールの恩恵を受けることができる。このモデルは柔軟性と制御性を提供するため、特定の要件や技術的専門知識を持つ組織に適している。また、他のクラウド・ネイティブなサービスやツールとのシームレスな統合も可能です。
  • セルフホストデプロイメントでは、推論サービスをセルフマネージドプライベートデータセンターまたはコロケーションサービス内で管理する必要があります。このモデルでは、最高レベルの制御とカスタマイズが可能で、企業はインフラとサービスを特定のニーズに合わせてカスタマイズできる。しかし、メンテナンス、アップデート、スケーリングに多大なリソースを必要とする。このモデルは、クラウドベースのソリューションでは対応できない厳しいセキュリティ、コンプライアンス、パフォーマンス要件を持つ企業が選択することが多い。
  • エッジホスト型デプロイメントでは、AIや機械学習(ML)サービスを小売店のキオスクやIoTデバイス、その他のローカライズされた環境などのエッジで実行する。このモデルは、データをソースに近い場所で処理することでレイテンシーを削減し、リアルタイム・アプリケーションや、インターネット接続が限定的または断続的なシナリオに最適です。堅牢なローカル・ハードウェアとソフトウェア管理が必要ですが、即時のローカルな意思決定が必要なユースケースに大きなメリットをもたらします。エッジホスト型の導入は、小売、製造、ヘルスケアなどの業界で特に価値があります。

F5は、AIアプリケーションをどこにでも配信し、保護します。

アプリケーションデリバリとセキュリティのために日々頼りにしているF5の機能は、適切に設計されたAIファクトリにとって重要な機能と同じです。F5 BIG-IP Local Traffic Managerは、F5rSeriesおよびVELOS専用ハードウェアと組み合わせることで、AIトレーニングのための高性能なデータ取り込みを可能にします。セキュアなマルチクラウドネットワーキングを実現するF5 Distributed Cloud Network Connectは、異なるデータロケーションを接続し、独自のデータからRAGのAIモデルへのセキュアなコンジットを作成します。

F5のAIへの注力はこれだけにとどまりません。F5がどのようにAIアプリケーションをあらゆる場所で保護し、提供しているかをご覧ください。