BLOG

RAG im Zeitalter von LLMs mit 10-Millionen-Token-Kontextfenstern

Hunter Smit Miniaturbild
Jäger Smit
Veröffentlicht am 9. April 2025

Meta hat vor Kurzem die Llama 4-Herde von LLMs – Scout, Maverick und Behemoth-Vorschau – vorgestellt , die mit Scout ein Kontextfenster mit 10 Millionen Token bieten. Bald darauf mehrten sich auf X, LinkedIn und in anderen Foren die Kommentare, dass Retrieval-Augmented Generation (RAG) obsolet werde. Sie deuteten an, dass ein derart ausgedehntes Kontextfenster RAG nutzlos machen könnte. Wir glauben jedoch, dass RAG angesichts der Nuancen von Kontextfenstern, sich ständig ändernden Unternehmensdaten, verteilten Datenspeichern, regulatorischen Bedenken, der Modellleistung und der Relevanz von KI- Applications im Unternehmensmaßstab weiterhin ein grundlegendes generatives KI-Entwurfsmuster bleiben wird.

RAG ist eine kritische Architektur für Unternehmen.

Trotz der Leistung von Llama 4, 10 Millionen Token-Kontextfenster zu unterstützen, bleibt RAG eine kritische Komponente in KI Applications für Unternehmen. Unternehmen arbeiten häufig mit dynamischen, sich ständig ändernden Datensätzen, die auf verteilten Systemen gespeichert sind. RAG ermöglicht es Modellen, die aktuellsten und relevantesten Informationen in Echtzeit aus diesen riesigen Datenspeichern abzurufen und zu integrieren. Dadurch wird sichergestellt, dass die KI-Ausgaben sowohl genau als auch kontextbezogen relevant sind. All dies ist je nach Organisation, Team oder Benutzer äußerst individuell.  Der Echtzeitabruf ist für Applications von entscheidender Bedeutung, die aktuelles Wissen erfordern, wie etwa Kundensupport, Marktanalysen und Wissensdatenbanken.

Sich ausschließlich auf große Kontextfenster ohne externen Abruf zu verlassen, kann sowohl ineffizient sein als auch ein Sicherheitsrisiko darstellen. Wenn kontinuierlich Daten in ein Modell eingespeist werden, lässt sich schwerer kontrollieren, wer auf diese Daten zugreifen kann, ob sie sicher gespeichert sind und wie sie durch Protokolle oder Modellausgaben unbeabsichtigt offengelegt werden könnten. Mit zunehmendem Datenvolumen werden Insider-Bedrohungen, böswillige Aufforderungen oder versehentliche Lecks wahrscheinlicher, und Unternehmen laufen Gefahr, Datenschutz- oder Compliance-Vorgaben zu verletzen, wenn vertrauliche Datensätze falsch behandelt werden. 

Durch die Einführung von RAG können Unternehmen für jede Abfrage nur die relevantesten Daten abrufen und dabei regionale und branchenspezifische regulatorische Einschränkungen einhalten, die oft eine stark korrelierte Datenauswahl erfordern. Dieser Ansatz reduziert die Angriffsfläche und gewährleistet gleichzeitig die konsistente Durchsetzung von Richtlinien wie rollenbasierten Zugriffskontrollen, Verschlüsselung während der Übertragung und detaillierten Prüfmechanismen. Dieser selektive Abruf verringert nicht nur den Rechenaufwand, sondern sorgt auch für eine robuste Sicherheitslage, indem er die Offenlegung sensibler Daten auf das beschränkt, was zum Zeitpunkt der Inferenz benötigt wird.

Kontextfenster und Implikationen

In LLMs gibt das Kontextfenster die maximale Anzahl von Token an, die das Modell in einer einzelnen Eingabe verarbeiten kann. Durch die Erweiterung dieses Fensters kann das Modell umfangreichere Informationen gleichzeitig berücksichtigen, was zu detaillierteren Gesprächen, umfassenderen Analysen und einer verbesserten Personalisierung führt. Zur Veranschaulichung: Ein Rohtext aus 100.000 Token hat eine Größe von etwa 325 KB. Ein Kontext mit 10 Millionen Token würde etwa 32 MB Textdaten entsprechen. Diese Kapazität ermöglicht es Llama 4 Scout, große Mengen an Informationen in einer einzigen Abfrage zu verarbeiten.

Ein erweitertes Kontextfenster bietet zwar den Vorteil, dass mehr Daten gleichzeitig verarbeitet werden können, bringt jedoch auch Herausforderungen hinsichtlich der Leistung, Genauigkeit und Effizienz des Modells mit sich. Die Verarbeitung von Millionen von Token erfordert erhebliche Rechenressourcen, was zu längeren Latenzen und höheren Betriebskosten führt. Mit zunehmender Kontextlänge kann es für Modelle schwieriger werden, die Aufmerksamkeit und Relevanz über die gesamte Eingabe hinweg aufrechtzuerhalten, was sich möglicherweise auf die Qualität der KI-Ausgaben auswirkt. Zu diesem Thema schrieb Andriy Burkov, Ph.D., ein Autor und anerkannter KI-Experte, auf X : „Der angegebene 10M-Kontext ist virtuell, da kein Modell mit Eingabeaufforderungen trainiert wurde, die länger als 256.000 Token waren. Das bedeutet, dass Sie in den meisten Fällen eine Ausgabe von geringer Qualität erhalten, wenn Sie mehr als 256.000 Token senden.“ 

Größere Kontextfenster bieten zwar neue Möglichkeiten, doch ist es entscheidend, Leistung und Ressourcennutzung in Einklang zu bringen. Das optimale Szenario besteht darin, alle relevanten Informationen anzuzeigen, aber nichts, was nicht benötigt wird. Tatsächlich scheinen einige Studien darauf hinzudeuten, dass ein LLM, dem zu viele Informationen zugeführt werden, ebenso wie Menschen seine Fähigkeit zur Erkennung und Konzentration beeinträchtigt. Für Interessierte das Whitepaper „ Lost in the Middle“: Wie Sprachmodelle lange Kontexte verwenden , untersucht dieses Thema ausführlich.

Infrastrukturaspekte für den Einsatz fortschrittlicher KI-Modelle

Viele Unternehmen empfinden es als entmutigend, Hunderte oder Tausende weit verstreuter Datenspeicher für RAG sicher zu verbinden, ohne die Leistung oder Sicherheit der übertragenen Daten zu beeinträchtigen. Die Herausforderung der Konsolidierung lokaler, hybrider und Multicloud-basierter Speicherorte erfordert ein leistungsstarkes globales Verbindungsnetzwerk, wie es von F5 Distributed Cloud Services bereitgestellt wird. Indem sie mithilfe einer integrierten WAF und richtlinienbasierter Kontrollen sicherstellen, dass nur autorisierte LLM-Endpunkte auf die Daten zugreifen können, reduzieren Unternehmen die Risiken und den Aufwand, die mit der Verwaltung mehrerer Gateways oder VPNs verbunden sind, erheblich. 

Durch die Bereitstellung eines einheitlichen Ansatzes für Vernetzung und Sicherheit rationalisiert F5 Distributed Cloud Network Connect RAG-Implementierungen und ermöglicht Unternehmen die nahtlose Verbindung verteilter Datenquellen für genauere und zeitnahere LLM-gesteuerte Ausgaben. Darüber hinaus können sich Unternehmen mit F5 AI Gateway vor Prompt-Injection-Angriffen schützen, die die Grenzen der Datensicherheit verletzen könnten, um zum Zeitpunkt der Inferenz einen mehrstufigen Verteidigungsansatz sicherzustellen.

Die Bereitstellung von Modellen wie Llama 4 Scout mit seinem umfangreichen Kontextfenster erfordert eine robuste und effiziente Infrastruktur. Um eine geringe Latenz aufrechtzuerhalten und einen reibungslosen Betrieb zu gewährleisten, sind leistungsstarke Proxys, die einen erheblichen Datendurchsatz bewältigen können, unerlässlich. F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs, bietet in diesem Zusammenhang eine überzeugende Lösung und bietet leistungsstarkes Verkehrsmanagement und Sicherheit, die auf KI-Infrastrukturen und KI-Fabriken im Cloud-Maßstab zugeschnitten sind.

Durch die Auslagerung datenintensiver Aufgaben auf DPUs werden CPU-Ressourcen für Application freigegeben, was die Gesamteffizienz des Systems verbessert. Durch die Unterstützung von Multi-Tenancy können mehrere KI-Workloads sicher und effizient innerhalb derselben Infrastruktur ausgeführt werden, was sich gut mit KI-Clouds, Hyperscalern und Dienstanbietern vereinbaren lässt. Solche Fähigkeiten sind für KI-Fabriken unverzichtbar, die Modelle mit umfangreichen Kontextfenstern nutzen und gleichzeitig optimale Leistung und Sicherheit aufrechterhalten möchten.

Ein weiterer wichtiger Aspekt besteht darin, dass große und stark variable Kontextfenster zu erheblichen Schwankungen im Ressourcenverbrauch führen können. Dadurch wird der Schwerpunkt stärker auf die intelligente Verteilung eingehender Anfragen gelegt, um sie an die verfügbare Rechenkapazität anzupassen. Fortschrittliche, adaptive Lastausgleichslösungen helfen dabei, diese großen Abfragen auf mehrere Cluster oder Regionen zu verteilen, wodurch Engpässe gemildert und die Gesamtleistung bei komplexen KI-Bereitstellungen aufrechterhalten wird, auch wenn sie die Rechenkosten nicht direkt senken.

Die RAG bleibt bestehen

RAG ist heute genauso relevant wie eh und je, und zwar aus Gründen, die über die Skalierung von Kontextfenstern hinausgehen. Ein wesentlicher Vorteil ist die Möglichkeit, den Datenabruf basierend auf den Zugriffsrechten des Benutzers anzupassen. Ein weiterer Vorteil besteht in der Fähigkeit, aktuelle Informationen einzubeziehen, ohne dass eine erneute Schulung oder Feinabstimmung des Modells erforderlich ist. Dies ist besonders wichtig, wenn man die enorme Größe der Unternehmensdaten bedenkt, die sich oft über Terabyte oder sogar Petabyte erstrecken und die Unternehmen möglicherweise in KI-Modelle integrieren möchten. 

Die beeindruckenden Neuerungen bei der Vergrößerung des Kontextfensters, wie beispielsweise das 10-Millionen-Token-Kontextfenster von Llama 4 Scout, stellen bei LLMs einen bedeutenden Fortschritt dar, doch der Kontext muss weiterhin mit Bedacht eingesetzt werden. Große Kontextgrößen erhöhen die Kosten und Latenz und können in einigen Fällen sogar die Qualität der endgültigen Antwort verringern. Ebenso wichtig sind die robuste Infrastruktur und die Sicherheitskontrollen, die erforderlich sind, um eine hohe Leistung sicherzustellen, wenn Unternehmen ihre KI Applications skalieren.

Der Fokus von F5 auf KI endet hier nicht – entdecken Sie , wie F5 KI-Apps überall sichert und bereitstellt .