Die Infrastruktur-Renaissance hat ein Schlagwort: Lass Server dienen und Inferenz die Inferenz.
In den Anfängen der Technologie habe ich Jahre damit verbracht, SSL-Beschleuniger zu testen und zu analysieren. Diese kleinen Karten wurden entwickelt, um ein erhebliches Problem zu lösen, das sich aus dem explosiven Wachstum des digitalen Geschäfts- und Handelswesens ergab: Sicherheitsfunktionen mit SSL verbrauchten CPU-Zyklen und waren eine erhebliche Quelle von Leistungsproblemen. Daher hat die Branche – darunter auch F5 – Hardware entwickelt, um diese Funktionen auszulagern und die Aufgabe von Servern zu übernehmen .
Heute erleben wir im Zusammenhang mit KI die gleichen Probleme – insbesondere beim Inferenzieren – und, unironisch, erleben wir auch die gleiche Art von Lösungen, nämlich spezialisierte Hardware, die es Servern ermöglicht, Inferenzen bereitzustellen und Inferenzen zu schlussfolgern .
Ja, ich bin nicht sicher, ob das grammatikalisch korrekt ist, aber lassen wir es fürs Erste dabei bewenden, einverstanden? Danke.
Wie wir bereits erwähnt haben, sind KI-Anwendungen aufgrund ihrer architektonischen Konstruktion moderne Anwendungen . Doch das Herzstück einer KI-Anwendung ist die Inferenz, und hier unterscheidet sich KI von „normalen“ modernen Anwendungen.
Wir haben gesehen, wie KI-Rechenkomplexe aus CPU- und GPU-Bänken aufgebaut sind . Diese Rechenressourcen verfügen über Verhältnisse und Salden, die aufrechterhalten werden müssen, damit der Cluster effizient arbeitet. Jedes Mal, wenn eine CPU nicht mithalten kann, bleibt eine sehr teure GPU ungenutzt.
Sie sehen, nur ein Teil der Verarbeitung eines Inferenzservers besteht tatsächlich aus Inferenz. Ein großer Teil davon ist die standardmäßige Webverarbeitung von HTTP- und API-Anfragen. Es ist der Teil des Inferenzdienstes, der die CPU verwendet und oft überlastet ist. In diesem Fall werden die GPUs immer weniger genutzt, da die Serverseite der Inferenz beim Verarbeiten der Anfragen überlastet ist.
Das ist wahrscheinlich der Grund, warum 15 % der Organisationen melden, dass weniger als 50 % ihrer verfügbaren und gekauften GPUs im Einsatz sind ( State of AI Infrastructure at Scale 2024 ).
Ein Teil des Problems besteht hier in der Nutzung von CPU-Ressourcen für Aufgaben, die eigentlich der Infrastruktur dienen sollten. Dienste wie Verkehrsmanagement, Sicherheitsoperationen und Überwachung verbrauchen ebenfalls CPU-Ressourcen und tragen zur Belastung des Gesamtsystems bei. Dies führt zu einer Verringerung der Kapazität und Leistung von Inferenzservern und zu einer geringeren Nutzung der GPU-Ressourcen.
Glücklicherweise geht es bei dieser Infrastrukturrenaissance darum, CPU-Ressourcen für Inferenzarbeiten einzusparen, indem Infrastrukturvorgänge auf eine neue Verarbeitungseinheit ausgelagert werden: die DPU.
Das Interessante an DPUs ist, dass sie tatsächlich zwei verschiedene Modi unterstützen. In einem Fall können sie Netzwerkfunktionen wie RDMA über Infiniband oder Ethernet auslagern. Dies ist eine enorme Hilfe beim Aufbau eines KI-Rechenkomplexes, in dem große Datenmengen fließen, beispielsweise beim Trainieren eines KI-Modells oder beim Skalieren von Inferenzen für eine große Benutzerbasis.
DPUs können aber auch im „DPU“-Modus konfiguriert werden. In Kubernetes werden sie dadurch als separater Knoten angezeigt, auf dem Funktionen wie Anwendungsbereitstellung und Sicherheit ausgeführt werden können. Dadurch wird die CPU-Rechenleistung effektiv für Inferenzdienste reserviert, indem die weniger vorhersehbaren und anspruchsvolleren Infrastruktur-Workloads auf einen eigenen Knoten im Cluster „ausgelagert“ werden. Auf diese Weise können Lösungen wie F5 BIG-IP Next SPK (Service Proxy für Kubernetes) eingehende NS-KI-Anfragen über die API verwalten und sichern und sie ordnungsgemäß an den entsprechenden Inferenzdienst innerhalb des KI-Rechenkomplexes verteilen.
Dieser Ansatz bedeutet, dass Unternehmen vorhandenes Wissen und Investitionen in die Kubernetes-Verwaltung der Infrastruktur nutzen können, da unsere Lösung Kubernetes-nativ ist. Core, Cloud, Edge – das spielt keine Rolle, da der Vorgang auf Clusterebene erfolgt und in allen Umgebungen konsistent ist.
Außerdem wird die Verantwortung für die Verwaltung der Anwendungsbereitstellung und der Sicherheitsdienste getrennt, sodass Netzwerk- und Sicherheitsbetriebsteams die Infrastruktur unabhängig von den KI-Workloads handhaben können, die von den Entwicklungs- und ML-Betriebsteams verwaltet werden.
Und schließlich können durch die Nutzung der DPU für die Anwendungsbereitstellung und -sicherheit die Multi-Tenancy-Anforderungen von Unternehmen besser unterstützt werden. Dabei geht es nicht nur um die Isolierung von Kundenarbeitslasten, sondern um die Isolierung von Modellarbeitslasten. Aus unserer Forschung wissen wir, dass Organisationen im Durchschnitt bereits 2,9 verschiedene Modelle verwenden . Die Möglichkeit, die Nutzung jedes einzelnen Modells über eine konsistente Lösung zu verwalten, erhöht das Vertrauen in die Sicherheit und den Datenschutz der von den einzelnen Modellen genutzten und generierten Daten.
Dies ist nicht das erste Mal, dass F5 bei KI-bezogenen Anwendungsfällen mit NVIDIA DPUs gearbeitet hat. Aber es ist das erste Mal, dass wir zusammengearbeitet haben, um eine Lösung zu entwickeln, die Kunden jeder Größe dabei hilft, skalierbare und sichere KI-Rechenkomplexe aufzubauen, damit sie die Leistungsfähigkeit von Inferenzen in jeder Umgebung sicher und zuverlässig nutzen und die Verwendung von GPU-Ressourcen optimieren können, damit sie nicht ungenutzt herumsitzen .