Unternehmensleiter wissen, dass sie KI in den Mittelpunkt stellen müssen. Aber das ist leichter gesagt als getan. KI kann komplex, teuer und riskant sein. Und sowohl die Technologie als auch das Ökosystem entwickeln sich rasant.
Erstens gibt es eine klare Abkehr vom Einheitsansatz. Prädiktive KI/ML, generative KI und jetzt auch agentenbasierte KI werden alle an bestimmte Branchen und Applications angepasst. Mit der zunehmenden Verbreitung speziell entwickelter KI-Modelle wird die KI-Landschaft immer vielfältiger.
Es ist mittlerweile klar, dass KI- Applications eine maßgeschneiderte Infrastruktur erfordern, die nicht nur hinsichtlich Leistung, Kosten und Energieeffizienz optimiert ist, sondern auch mit den sich schnell entwickelnden Anforderungen von KI-Modellen, Applications und -Agenten Schritt halten kann. Ein perfektes Beispiel ist das Model Context Protocol (MCP), eine leistungsstarke Innovation, die es vor wenigen Monaten noch nicht einmal gab.
Während Unternehmen darum wetteifern, die Vorteile der generativen KI und zunehmend auch der KI-Agenten zu nutzen, bauen einige von ihnen ihre eigenen dedizierten Rechenzentren. Andere wenden sich an spezialisierte Anbieter, die Cloud-Infrastrukturen bereitstellen, die auf die Unterstützung mehrerer großer Sprachmodelle (LLMs) zugeschnitten sind. Diese Plattformen, die oft als KI-Fabriken oder Neoclouds bezeichnet werden, zeichnen sich durch massive Investitionen in beschleunigtes Computing, Vernetzung und Speicherung aus und sind alle speziell darauf ausgelegt, die hohe Leistung zu erbringen und die Anforderungen von KI-Workloads zu skalieren.
Der Aufbau einer souveränen, skalierbaren KI- und LLM-Inferenzinfrastruktur erfordert die Bewältigung von vier zentralen Herausforderungen:
Bei F5 arbeiten wir mit NVIDIA zusammen, um sicherzustellen, dass KI-Fabriken und KI-Infrastrukturen im Cloud-Maßstab den Anforderungen moderner KI gerecht werden. Heute, auf der NVIDIA GTC Paris 2025 , enthüllen wir die nächste Innovationsstufe mit neuen Funktionen für F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs . Dies baut auf der verbesserten Leistung, Mandantenfähigkeit und Sicherheit auf, die wir bei GTC San Jose 2025 eingeführt haben. Als Teil der F5 Application Delivery and Security Platform läuft F5 BIG-IP Next für Kubernetes nativ auf NVIDIA BlueField-3 , leistungsstarken, programmierbaren Prozessoren, die speziell für die Datenbewegung und -verarbeitung entwickelt wurden.
Durch die Auslagerung von Aufgaben wie Netzwerkverarbeitung, Speicherverwaltung und Sicherheitsvorgängen (z. B. Verschlüsselung und Verkehrsüberwachung) geben DPUs wertvolle CPU-Zyklen und GPU-Ressourcen frei, um sich auf KI-Training und -Inferenz zu konzentrieren. Dies reduziert Engpässe, steigert die Leistung und verbessert die Latenz, sodass KI-Fabriken schneller und effizienter arbeiten und mehr Token liefern können.
Die auf Netzwerkschnittstellenkarten befindlichen DPUs verwalten den Datenfluss über Server hinweg sowie zwischen externen Kunden/Benutzern/Agenten und der KI-Fabrik und orchestrieren die Vernetzung und Sicherheit im großen Maßstab. F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs, ist seit April allgemein verfügbar.
LLMs haben sich in den letzten Monaten rasant weiterentwickelt und bieten mittlerweile ein breites Spektrum an Größen, Kosten und fachspezifischer Expertise. Durch die Auswahl des richtigen Modells für jede Eingabeaufforderung werden nicht nur bessere Antworten und die Einhaltung gesetzlicher Vorschriften gewährleistet, sondern auch der Ressourcenverbrauch, die Kosten und die Latenz optimiert.
Mit der heutigen Integration von NVIDIA NIM- Mikroservices können Unternehmen KI-Eingabeaufforderungen jetzt intelligent an das am besten geeignete LLM oder genau an das richtige Modell für jede Aufgabe weiterleiten. Beispielsweise können leichte, energieeffiziente Modelle einfache Anfragen verarbeiten, während komplexere oder umfangreichere und spezialisiertere Eingabeaufforderungen an größere oder domänenspezifische Modelle weitergeleitet werden.
Dieser Ansatz ermöglicht es KI-Fabriken, Rechenressourcen effizienter zu nutzen und die Inferenzkosten um bis zu 60 % zu senken. Sowohl für Modellanbieter als auch für Modellbenutzer ist es eine Win-Win-Situation, schneller eine bessere Reaktion zu erzielen und die Kosten zu senken.
Zusätzlich zu den GPUs arbeitet NVIDIA weiterhin an Innovationen auf Softwareebene, um die wichtigsten Herausforderungen bei der KI-Inferenz zu bewältigen. NVIDIA Dynamo und KV-Cache, die in NVIDIA NIM enthalten sind, sind hervorragende Beispiele. NVIDIA Dynamo führt eine disaggregierte Bereitstellung für die Inferenz ein und trennt dabei das Kontextverständnis (Vorfüllen), das eine hohe GPU-Rechenleistung erfordert, von der Antwortgenerierung (Dekodieren), die eine hohe Speicherbandbreite erfordert, über verschiedene GPU-Cluster hinweg. Dies verbessert die GPU-Auslastung und vereinfacht die Skalierung über Rechenzentren hinweg durch effiziente Handhabung von Planung, Routing und Speicherverwaltung. Der KV-Cache optimiert die Speicherung und den Zugriff auf den Modellkontext. Indem häufig verwendete Daten im GPU-Speicher gehalten und der Rest auf die CPU oder den Speicher ausgelagert wird, werden Speicherengpässe gemildert, sodass größere Modelle oder mehr Benutzer unterstützt werden können, ohne dass zusätzliche Hardware erforderlich ist.
Eine leistungsstarke neue Funktion von BIG-IP Next für Kubernetes ist die Unterstützung für KV-Caching, das die KI-Inferenz beschleunigt und gleichzeitig Zeit- und Energieverbrauch reduziert. In Kombination mit dem intelligenten Routing von NVIDIA Dynamo, das auf wenigen expliziten Messwerten wie der GPU-Speichernutzung und anderen Kriterien basiert, ermöglicht dies eine deutlich kürzere Zeit bis zum ersten Token (TTFT), eine höhere Token-Generierung und letztendlich einen schnelleren Durchsatz. DeepSeek hat eine Kapazitätssteigerung von 10 bis 30 Mal gezeigt.
Kunden können die Programmierbarkeit von F5 nutzen, um die BIG-IP-Funktionen von F5 zu erweitern und anzupassen, um ihre genauen und individuellen Anforderungen bei sehr hoher Leistung zu erfüllen.
Für die meisten Organisationen, insbesondere große, wie etwa Finanzdienstleister, Telekommunikationsunternehmen und Unternehmen im Gesundheitswesen mit komplexen Altsystemen, ist die agentenbasierte KI sehr attraktiv. Diese auf LLMs basierenden KI-Agenten können durch komplexe Datenbanken, Server, Tools und Applications navigieren, um präzise Informationen abzurufen und so ein neues Maß an Effizienz und Erkenntnissen zu erschließen.
MCP wurde im November 2024 von Anthropic eingeführt und verändert die Art und Weise, wie KI-Systeme mit realen Daten, Tools und Diensten interagieren. MCP-Server fungieren als standardisierte Konnektoren und ermöglichen KI-Modellen den Zugriff auf APIs, Datenbanken und Dateisysteme in Echtzeit. Dadurch kann die KI die Einschränkungen statischer Trainingsdaten überwinden und Aufgaben effizient ausführen. Mit zunehmender Akzeptanz benötigen diese Server erweiterte Reverse-Proxys mit Lastausgleich, starker Sicherheit, Authentifizierung, Autorisierung für Daten und Tools sowie nahtloser Kubernetes-Integration, wodurch MCP zu einer wichtigen Säule einer souveränen KI-Infrastruktur wird und agentenbasierte KI sichert und ermöglicht.
BIG-IP Next für Kubernetes wird als Reverse-Proxy vor den MCP-Servern bereitgestellt und kann auf NVIDIA BlueField-3 DPUs MCP-Server skalieren und sichern, indem es Anfragen überprüft, Daten klassifiziert und deren Integrität und Datenschutz prüft. So werden sowohl Organisationen als auch LLMs vor Sicherheitsbedrohungen und Datenlecks geschützt. Gleichzeitig lässt sich durch die Programmierbarkeit von F5 ganz einfach sicherstellen, dass die KI- Application die Anforderungen von MCP und anderen Protokollen erfüllt.
In ihren jüngsten Gewinnmitteilungen haben einige große Unternehmen damit begonnen, die Anzahl der pro Quartal generierten Token, deren Wachstum und die damit verbundenen Einnahmen offenzulegen. Dies spiegelt ein wachsendes Bedürfnis unserer Kunden wider: die Möglichkeit, die Token-Nutzung wie ein Budget zu verfolgen, zu verwalten und zu kontrollieren, um unerwartete Kosten zu vermeiden, wie es manchmal bei öffentlichen Clouds vorkommt.
Aus diesem Grund umfasst BIG-IP Next für Kubernetes jetzt neue Funktionen zur Messung und Steuerung des Token-Verbrauchs im gesamten Unternehmen. Wenn Kunden fragen, hören wir zu und liefern mit Sorgfalt.
Während die Industrie KI-Fabriken entwickelt und Länder ihre souveräne KI aufbauen, entstehen KI-Agenten und Infrastruktur, Ökosysteme und Applications müssen flexibel und anpassungsfähig sein. Unternehmen, die KI effizient einsetzen, können schneller agieren, ihren Kunden einen besseren Service bieten und Kosten senken. Um dieses Potenzial jedoch auszuschöpfen, muss KI sicher, skalierbar und kosteneffizient bleiben, ohne dass das Innovationstempo nachlässt.
Hier kommt F5 ins Spiel. Im vergangenen März haben wir Leistung, Mandantenfähigkeit und Sicherheit geliefert. Jetzt ermöglichen wir mit BIG-IP Next für Kubernetes Innovationen, die mit der Geschwindigkeit der KI Schritt halten.
Unser Versprechen: Mehr Token pro Dollar und Watt. Probieren Sie es aus und erleben Sie den Unterschied aus erster Hand.
F5 ist stolz, Goldsponsor der NVIDIA GTC Paris 2025 zu sein. Besuchen Sie uns am Stand G27, um zu erfahren, wie die F5 Application Delivery and Security Platform eine sichere, leistungsstarke KI-Infrastruktur unterstützt, und nehmen Sie an unserer gemeinsamen Sitzung mit NVIDIA, Secure Infrastructure by Design, teil: Aufbau vertrauenswürdiger KI-Fabriken , am Donnerstag, 12. Juni, um 10:00 Uhr MESZ.
Weitere Informationen zu F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs, finden Sie in meinem vorherigen Blogbeitrag . Lesen Sie auch unbedingt unsere Pressemitteilung zur heutigen Ankündigung.
Der Fokus von F5 auf KI hört hier nicht auf – entdecken Sie , wie F5 KI-Apps überall sichert und bereitstellt .