ブログ

1,000 万トークンのコンテキスト ウィンドウを備えた LLM 時代の RAG

ハンター・スミットのサムネイル
ハンター・スミット
2025年4月9日公開

Meta は最近、Scout、Maverick、Behemoth のプレビューを含む Llama 4 群の LLM を発表しました。これには、Scout を使用した 1,000 万トークンのコンテキスト ウィンドウが含まれます。 その後すぐに、X、LinkedIn、その他のフォーラムでは、検索拡張生成(RAG) が時代遅れになりつつあるというコメントが勢いを増し、このような広範なコンテキスト ウィンドウによって RAG が役に立たなくなる可能性があることが示唆されました。 ただし、コンテキスト ウィンドウのニュアンス、常に変化する企業データ、分散データ ストア、規制上の懸念、モデルのパフォーマンス、エンタープライズ規模の AIapplicationsの関連性を考慮すると、RAG は今後も基礎的な生成 AI 設計パターンであり続けると考えています。

RAG は企業にとって重要なアーキテクチャです

Llama 4 は 1,000 万のトークン コンテキスト ウィンドウをサポートするという成果を上げましたが、RAG は依然としてエンタープライズ AIapplicationsにおける重要なコンポーネントです。 企業は多くの場合、分散システム全体にわたって保存された動的で絶えず変化するデータ セットを使用して業務を行います。 RAG を使用すると、モデルはこれらの膨大なデータ ストアから最新かつ関連性の高い情報をリアルタイムで取得して組み込むことができるため、AI 出力が正確でコンテキストに関連性があることが保証されます。これらはすべて、組織、チーム、またはユーザーに応じて非常にユニークです。  顧客サポート、市場分析、ナレッジ ベースなど、最新の知識を必要とするapplicationsでは、リアルタイム検索が不可欠です。

外部からの取得なしに大きなコンテキスト ウィンドウのみに依存すると、非効率的になるだけでなく、セキュリティ上の問題も生じます。 データがモデルに継続的に入力されると、誰がそのデータにアクセスできるのか、データが安全に保存されているかどうか、ログやモデル出力を通じてデータが誤って公開される可能性があるかどうかを制御することが難しくなります。 データ量が増加すると、内部脅威、悪意のあるプロンプト、または偶発的な漏洩が発生する可能性が高くなり、機密レコードが不適切に処理されると、組織はプライバシーまたはコンプライアンスの義務に違反するリスクがあります。 

RAG を導入することで、企業はクエリごとに最も関連性の高いデータのみを取得できるようになり、高度に相関したデータ選択が必要となることが多い地域および業界固有の規制上の制約に準拠できるようになります。 このアプローチにより、攻撃対象領域が縮小されると同時に、ロールベースのアクセス制御、転送中の暗号化、詳細な監査メカニズムなどのポリシーが一貫して適用されます。 この選択的な取得により、計算オーバーヘッドが削減されるだけでなく、機密資産の公開を推論時に必要なものだけに制限することで、堅牢なセキュリティ体制が強化されます。

コンテキストウィンドウとその影響

LLM では、コンテキスト ウィンドウは、モデルが単一の入力で処理できるトークンの最大数を示します。 このウィンドウを拡張すると、モデルはより広範な情報を同時に考慮できるようになり、より詳細な会話、より包括的な分析、およびパーソナライゼーションの向上が実現します。 参考までに、100,000 個のトークンで構成される生のテキストのサイズは約 325 KB です。1,000 万個のトークンのコンテキストは、およそ 32 MB のテキスト データに相当します。 この機能により、Llama 4 Scout は 1 回のクエリで大量の情報を処理できるようになります。

拡張コンテキスト ウィンドウには一度に処理できるデータ量の増加という利点がありますが、モデルのパフォーマンス、精度、効率性に関連する課題も生じます。 数百万のトークンを処理するには、かなりの計算リソースが必要となり、レイテンシの増加と運用コストの上昇につながります。 コンテキストの長さが長くなると、モデルは入力全体にわたって注意と関連性を維持するのが難しくなり、AI 出力の品質に影響を及ぼす可能性があります。 このトピックについて、著者であり AI の専門家として認められている Andriy Burkov 博士は、 X に次のように書いています。「宣言された 1,000 万のコンテキストは仮想的なものです。256,000 トークンを超えるプロンプトでトレーニングされたモデルがないためです。 つまり、256,000 トークン以上を送信すると、ほとんどの場合、低品質の出力が得られることになります。」 

コンテキスト ウィンドウが大きくなると新たな機会が生まれますが、パフォーマンスとリソース使用率のバランスを取ることが重要です。​ 最適なシナリオは、関連するすべての情報を表示し、不要な情報は表示しないことです。 実際、いくつかの研究では、人間の場合と同様に、LLM に情報を与えすぎると識別能力や集中能力が低下することが示されているようです。 興味のある方は、ホワイトペーパー「Lost in the Middle」をご覧ください。 「言語モデルが長いコンテキストを使用する方法」ではこのトピックを詳細に説明します。

高度な AI モデルを導入するためのインフラストラクチャの考慮事項

多くの企業にとって、転送中のデータのパフォーマンスやセキュリティを損なうことなく、RAG 用に数百または数千の広範囲に分散したデータ ストアを安全に接続するのは困難です。 オンプレミス、ハイブリッド、マルチクラウドベースのストレージ ロケーションを統合するという課題を解決するには、F5 Distributed Cloud Servicesが提供するような高性能なグローバル相互接続ファブリックが必要です。 統合された WAF とポリシーベースの制御を使用して、許可された LLM エンドポイントのみがデータにアクセスできるようにすることで、企業は複数のゲートウェイまたは VPN の管理に関連するリスクとオーバーヘッドを大幅に削減します。 

F5 Distributed Cloud Network Connect は、ネットワークとセキュリティへの統一されたアプローチを提供することで RAG の実装を合理化し、組織が分散データ ソースをシームレスに接続して、より正確でタイムリーな LLM 駆動型出力を実現できるようにします。 さらに、 F5 AI Gatewayを使用すると、組織はデータ セキュリティ境界を侵害する可能性のあるプロンプト インジェクション攻撃から保護し、推論時に徹底的な防御アプローチを確保できます。

広範なコンテキスト ウィンドウを備えた Llama 4 Scout のようなモデルを展開するには、堅牢で効率的なインフラストラクチャが必要です。 低レイテンシを維持し、シームレスな操作を確保するには、大量のデータ スループットを管理できる高性能プロキシが不可欠です。 NVIDIA BlueField-3 DPU に導入された F5 BIG-IP Next for Kubernetes は、このコンテキストにおいて魅力的なソリューションを提供し、クラウド規模の AI インフラストラクチャとAI ファクトリー向けにカスタマイズされた高性能なトラフィック管理とセキュリティを実現します。

データ集約型のタスクをDPUにオフロードすることで、CPU リソースがコアapplicationプロセス用に解放され、システム全体の効率が向上します。 マルチテナント サポートにより、複数の AI ワークロードを同じインフラストラクチャ内で安全かつ効率的に運用できるため、AI クラウド、ハイパースケーラー、サービス プロバイダーとの連携が容易になります。 このような機能は、最適なパフォーマンスとセキュリティを維持しながら、広範なコンテキスト ウィンドウを持つモデルを活用することを目指す AI ファクトリーにとって不可欠です。

もう 1 つの重要な考慮事項は、コンテキスト ウィンドウが大きく変動が大きいと、リソース消費量に大きな変動が生じる可能性があることです。 これにより、利用可能なコンピューティング能力に合わせて受信リクエストをインテリジェントにバランスさせることに重点が置かれるようになります。 高度で適応型の負荷分散ソリューションは、コンピューティング コストを直接削減しない場合でも、これらの大規模なクエリを複数のクラスターまたはリージョンに分散し、ボトルネックを軽減して、複雑な AI 展開における全体的なパフォーマンスを維持するのに役立ちます。

RAG は今後も存続するだろう

RAG は、コンテキスト ウィンドウのスケーリングを超えた理由により、これまでと同様に今日でも重要です。 主な利点の 1 つは、ユーザーのアクセス権に基づいてデータの取得をカスタマイズできることです。 もう 1 つは、モデルの再トレーニングや微調整を必要とせずに、タイムリーな情報を組み込むことができることです。 これは、企業が AI モデルと統合しようとする企業データの規模がテラバイト、さらにはペタバイトに及ぶことも多いことを考えると、特に重要になります。 

Llama 4 Scout の 1,000 万トークンのコンテキスト ウィンドウなど、コンテキスト ウィンドウのサイズを拡大する印象的なイノベーションは、LLM にとって大きな飛躍ですが、コンテキストは依然として慎重に使用する必要があります。 コンテキスト サイズが大きいと、コストと待ち時間が増加し、場合によっては最終的な応答の品質が低下することもあります。 組織が AIapplicationsを拡張する際に高いパフォーマンスを確保するために必要な堅牢なインフラストラクチャとセキュリティ制御も同様に重要です。

F5 の AI への注力はこれで終わりではありません。F5が AI アプリをあらゆる場所で保護し、配信する方法をご覧ください。