F5 skaliert KI-Inferenz von innen nach außen

Inferenz in Aktion

Wir haben gesehen, wie KI-Rechenzentren aus Reihen von CPUs und GPUs aufgebaut werden. Sie müssen das richtige Verhältnis der Serverressourcen bewahren, damit der Cluster effizient arbeitet. Wenn eine CPU nicht mithalten kann, bleibt eine teure GPU ungenutzt.

Sie sehen, nur ein Teil der Verarbeitung eines Inferenzservers besteht tatsächlich aus Inferenz. Ein großer Teil davon ist die standardmäßige Webverarbeitung von HTTP- und API-Anfragen. Es ist der Teil des Inferenzdienstes, der die CPU verwendet und oft überlastet ist. In diesem Fall werden die GPUs immer weniger genutzt, da die Serverseite der Inferenz beim Verarbeiten der Anfragen überlastet ist.

Das ist wahrscheinlich der Grund, warum 15 % der Organisationen melden, dass weniger als 50 % ihrer verfügbaren und gekauften GPUs im Einsatz sind ( State of AI Infrastructure at Scale 2024 ).

Ein Kernproblem liegt darin, CPU-Ressourcen für Aufgaben zu nutzen, die eigentlich zur Infrastruktur gehören. Dienste wie Datenverkehrsverwaltung, Sicherheitsoperationen und Überwachung beanspruchen ebenfalls CPU-Ressourcen und belasten so das Gesamtsystem. Das verringert die Kapazität und Leistung der Inferenzserver und führt dazu, dass GPU-Ressourcen weniger genutzt werden.

Glücklicherweise zielt diese Infrastruktur-Renaissance darauf ab, CPU-Ressourcen für Inferenzaufgaben zu sparen, indem wir Infrastrukturaufgaben auf eine neue Verarbeitungseinheit auslagern: die DPU.

Das Interessante an DPUs ist, dass sie tatsächlich zwei verschiedene Modi unterstützen. In einem Fall können sie Netzwerkfunktionen wie RDMA über Infiniband oder Ethernet auslagern. Dies ist eine enorme Hilfe beim Aufbau eines KI-Rechenkomplexes, in dem große Datenmengen fließen, beispielsweise beim Trainieren eines KI-Modells oder beim Skalieren von Inferenzen für eine große Benutzerbasis.

DPUs können aber auch im „DPU“-Modus konfiguriert werden. In Kubernetes werden sie dadurch als separater Knoten angezeigt, auf dem Funktionen wie Anwendungsbereitstellung und Sicherheit ausgeführt werden können. Dadurch wird die CPU-Rechenleistung effektiv für Inferenzdienste reserviert, indem die weniger vorhersehbaren und anspruchsvolleren Infrastruktur-Workloads auf einen eigenen Knoten im Cluster „ausgelagert“ werden. Auf diese Weise können Lösungen wie F5 BIG-IP Next SPK (Service Proxy für Kubernetes) eingehende NS-KI-Anfragen über die API verwalten und sichern und sie ordnungsgemäß an den entsprechenden Inferenzdienst innerhalb des KI-Rechenkomplexes verteilen.

Dieser Ansatz bedeutet, dass Unternehmen vorhandenes Wissen und Investitionen in die Kubernetes-Verwaltung der Infrastruktur nutzen können, da unsere Lösung Kubernetes-nativ ist. Core, Cloud, Edge – das spielt keine Rolle, da der Vorgang auf Clusterebene erfolgt und in allen Umgebungen konsistent ist.

Außerdem wird die Verantwortung für die Verwaltung der Anwendungsbereitstellung und der Sicherheitsdienste getrennt, sodass Netzwerk- und Sicherheitsbetriebsteams die Infrastruktur unabhängig von den KI-Workloads handhaben können, die von den Entwicklungs- und ML-Betriebsteams verwaltet werden.

Und schließlich können durch die Nutzung der DPU für die Anwendungsbereitstellung und -sicherheit die Multi-Tenancy-Anforderungen von Unternehmen besser unterstützt werden. Dabei geht es nicht nur um die Isolierung von Kundenarbeitslasten, sondern um die Isolierung von Modellarbeitslasten. Aus unserer Forschung wissen wir, dass Organisationen im Durchschnitt bereits 2,9 verschiedene Modelle verwenden . Die Möglichkeit, die Nutzung jedes einzelnen Modells über eine konsistente Lösung zu verwalten, erhöht das Vertrauen in die Sicherheit und den Datenschutz der von den einzelnen Modellen genutzten und generierten Daten.

F5 hat nicht zum ersten Mal mit NVIDIA DPUs bei KI-bezogenen Anwendungsfällen zusammengearbeitet. Aber zum ersten Mal haben wir gemeinsam eine Lösung entwickelt, die Kunden jeder Größe dabei unterstützt, skalierbare und sichere KI-Rechenkomplexe aufzubauen, damit Sie die Leistung von Inferenzen in jeder Umgebung sicher und zuverlässig nutzen und gleichzeitig den Einsatz von GPU-Ressourcen optimieren, damit diese nicht ungenutzt bleiben.

Vorgeschlagene Suchanfragen

F5 skaliert KI-Inferenz von innen nach außen

Inferenz in Aktion

Jede Anwendung bereitstellen und absichern

F5 skaliert KI-Inferenz von innen nach außen

Inferenz in Aktion

Jede Anwendung bereitstellen und absichern

KONTAKT AUFNEHMEN