ChatGPTが2022年11月にリリースされたとき、私たちが尋ねた質問と入力したプロンプトはシンプルなものだった: 「Xについての話をしてください 「と 」トピックZについての人物Aと人物Bの間の物語を書いてください"。これらの質問とGPT-3.5との最初のやりとりを通じて、私たちはこの新しいトレンド技術が私たちの日常生活にどのような影響を与えるかを見極めようとしていた。2024年後半の現在、AIは私たちの生活を補っている。コードのデバッグや記述、データのコンパイルや要約、自律走行車の運転など、ほんの一例を挙げればきりがない。これらは現代のAI工場から生み出されるアウトプットであり、まだ始まったばかりなのだ。
AIファクトリーに関するシリーズの第1回であるこの記事では、AIファクトリーの構成要素と、AI主導のソリューションを大規模に生成するためにさまざまな要素がどのように連携するのかを探る。
AIが進化する中、AIモデルやサービスがどのように作られ、洗練され、展開されるかを示すアナロジーとして、AIファクトリーという概念が登場した。材料を集めて完成品に変える伝統的な製造工場のように、AI工場は、大量で高性能なトレーニングと推論の要件に対応する大規模なストレージ、ネットワーク、コンピューティングへの投資であります。
これらのファクトリー内では、サーバー、グラフィック・プロセッシング・ユニット(GPU)、データ・プロセッシング・ユニット(DPU)、専用ハードウェアのネットワークが連携して膨大な量のデータを処理し、複雑なアルゴリズムを実行してAIモデルを学習させ、高い精度と効率を達成している。これらのインフラは、大規模なモデルの学習とリアルタイム推論に必要な膨大な計算能力を処理できるよう、綿密に設計されています。これらのインフラには、膨大なデータセットを管理・検索するための高度なストレージ・ソリューションが組み込まれており、シームレスなデータフローを実現します。
ロードバランシングとネットワーク最適化により、パフォーマンスとリソース利用を最大化し、ボトルネックを防ぎ、スケーラビリティを確保します。このハードウェアとソフトウェア・コンポーネントのオーケストレーションにより、AIファクトリーは最先端のAIモデルを生産し、継続的に改良し、新しいデータと進化する要件に適応することができる。最終的に、AIファクトリーはAI開発の産業化を具現化し、次世代のインテリジェント・アプリケーションをサポートするために必要な堅牢なインフラを提供します。
エヌビディアのジェンセン・フアン最高経営責任者(CEO)はSalesforceDreamforce 2024で、「歴史上、コンピュータ技術がムーアの法則より速く動いた時代はない」と述べ、さらに「我々はムーアの法則よりはるかに速く動いており、ムーアの法則の2乗が容易であることは間違いない」と続けた。
AIへの投資が市場差別化の重要な要素となり、業務効率を高める原動力となるため、AIを大規模に展開することがますます不可欠となっている。これを達成するために、組織は継続的にモデルを構築・改良し、ナレッジ・リポジトリとリアルタイム・データを統合する必要がある。AIファクトリーのコンセプトは、AIは1回限りの取り組みではなく、継続的な投資であるべきだと強調している。AIファクトリーは、組織がAIイニシアチブを運用化するためのフレームワークを提供し、変化するビジネスや市場の需要への適応性を高めます。
F5は、お客様が高パフォーマンスでセキュアなモダン・アプリケーション・フリート(アプリケーション群)を大規模に展開するのを支援する当社の専門知識に基づき、AIリファレンス・アーキテクチャ・フレームワークを開発しました。AIアプリケーションはモダンアプリケーションの中でも最もモダンなものであり、APIを介して高度に接続され、高度に分散されていることから、このフレームワークは、最先端のAIアプリケーションを提供するために不可欠なパフォーマンス、セキュリティ、運用に関する重要な課題に対応しています。
F5のAIリファレンス・アーキテクチャ図
当社のリファレンス・アーキテクチャでは、包括的なAIファクトリーを構築するために必要な7つのAIビルディング・ブロックを定義しています:
フロントエンド・アプリケーションと推論サービスAPI間のインタラクションについて概説する。これは、より複雑なインタラクションのための基礎となります。
大規模言語モデル(LLM)オーケストレーションと検索拡張サービスを追加することで、基本的なInferenceを強化する。ベクターデータベースやコンテンツリポジトリから追加のコンテキストを取得し、コンテキストを強化したレスポンスを生成するために使用されます。
RAG(Retrieval Augmented Generation)を用いた推論に必要なデータ取り込みプロセスに焦点を当てる。データの正規化、埋め込み、ベクトルデータベースへの入力、RAG呼び出しのためのコンテンツの準備などが含まれます。
モデルとの相互作用を通じて、既存のモデルのパフォーマンスを向上させることを目的とする。モデルをゼロから再構築することなく調整し、ワークフローの微調整のためにInferenceとInference with RAGからデータを収集することに重点を置きます。
以前のチェックポイントを使用する場合もあるが、一から新しいモデルを構築する(再トレーニング)。データの収集、前処理、モデルの選択、トレーニング方法の選択、トレーニング、検証/テストが含まれる。この反復プロセスは、特定のタスクに合わせたロバストなモデルを作成することを目的としています。
LLMオーケストレーションレイヤーをデータベースやウェブサイトなどの外部ソースに接続する。外部データを推論リクエストに統合するが、チャンキングや埋め込みなどの文書前処理タスクは含みません。
AIアプリケーションコンポーネントの開発、保守、設定、テスト、デプロイのためのワークフローを包含する。フロントエンド・アプリケーション、LLMオーケストレーション、ソース・コントロール管理、CI/CDパイプラインが含まれます。
これらのビルディング・ブロックが一体となって、AIファクトリーのバックボーンを形成している。それぞれがAIアウトプットの作成、展開、改良において重要な役割を果たす。さらに、AIファクトリー構想は、ほとんどのビルディング・ブロックの実装戦略を(リースやアウトソーシングよりも)自社で所有することに適している傾向があり、その結果、以下に挙げる展開モデルのうち、セルフホスティングを選択することになる。
これらのビルディング・ブロックごとに、顧客は適切な導入モデルと導入戦略(自社所有、リース、アウトソース)を選択し、AIイニシアチブのビジネス目標を達成するための最適なリファレンス・アーキテクチャを定義する必要がある。以下はその上位4つであります:
アプリケーションデリバリとセキュリティのために日々頼りにしているF5の機能は、適切に設計されたAIファクトリにとって重要な機能と同じです。F5 BIG-IP Local Traffic Managerは、F5rSeriesおよびVELOS専用ハードウェアと組み合わせることで、AIトレーニングのための高性能なデータ取り込みを可能にします。セキュアなマルチクラウドネットワーキングを実現するF5 Distributed Cloud Network Connectは、異なるデータロケーションを接続し、独自のデータからRAGのAIモデルへのセキュアなコンジットを作成します。
F5のAIへの注力はこれだけにとどまりません。F5がどのようにAIアプリケーションをあらゆる場所で保護し、提供しているかをご覧ください。