BLOG | BÜRO DES CTO

Die Auswirkungen von KI-Inferenz auf die Rechenzentrumsarchitektur

Lori MacVittie Miniaturbild
Lori MacVittie
Veröffentlicht am 13. Juni 2024

Es heißt, dass die Strategie vom IT-Budget abhängt. Wenn das der Fall ist, dann sind KI-Strategien lebendig und erfolgreich. 

Unsere neuesten Untersuchungen zeigen, dass Unternehmen im Durchschnitt 18 % ihres IT-Budgets nur für KI bereitstellen. Doch erst die Art und Weise, wie diese 18 % verteilt werden, gibt uns einen Einblick in ihre KI-Strategien.

Etwa 18 % des KI-Budgets fließen heute in KI-Dienste; also Anwendungen von Drittanbietern, die KI-Tools integrieren oder anbieten. Der Rest geht für Modelle (19 %), Entwicklung (16 %), Sicherheit (9 %), Datentechnologien (11 %) und GPUs (9 %) drauf. 

Kombiniert mit der gleichmäßigen Aufteilung der Ausgaben zwischen Training (50 %) und Inferenz (50 %) und der Feststellung, dass KI über die öffentliche Cloud (80 %) und vor Ort (54 %) verteilt wird, kann man davon ausgehen, dass Unternehmen erhebliche Änderungen ihrer Infrastruktur planen, um den gesamten KI-Lebenszyklus zu unterstützen.

Ein Teil dieser Unterstützung erfordert einen neuen Blick auf das Netzwerk.

Beim Aufbau der Infrastruktur zur Unterstützung von Training und Inferenz müssen moderne Anwendungsumgebungen, z. B. Kubernetes, sorgfältig berücksichtigt werden und es muss berücksichtigt werden, wie der Datenverkehr zwischen KI-Instanzen und zwischen Modellen und den Anwendungen, die sie verwenden, fließt. 

Obwohl NVIDIA nicht der einzige Anbieter von Beschleunigungstechnologie (GPUs, DPUs, IPUs usw.) ist, nimmt das Unternehmen eine Vorreiterrolle ein, wenn es um Referenzarchitekturen geht. In diesen Details finden wir erhebliche Auswirkungen auf die Netzwerk- und Skalierbarkeitsarchitektur.

KI-Pods, -Cluster und -Fabriken

Derzeit herrscht in der Branche erhebliche Unzufriedenheit über die Verwendung der Kubernetes-spezifischen Terminologie. Während die Betreiber mittlerweile die Definition von Pods und Clustern verstanden haben, schummeln führende GPU-Anbieter bei der Bereitstellung von Inferenz im großen Maßstab an diesen Definitionen herum.

NVIDIA spricht beispielsweise von AI-Pods, also Kubernetes-Clustern. Und sie nennen eine Reihe verwandter Cluster eine KI-Fabrik. 

Ich bin nicht hier, um über Terminologie zu streiten – solche Auseinandersetzungen gewinne ich selten –, also konzentriere ich mich stattdessen auf diese Einheiten von KI-Fähigkeiten und was sie für das Netzwerk bedeuten.

Eine der Realitäten insbesondere bei der Skalierung generativer KI ist der Bedarf an Rechenzyklen. Insbesondere GPU-Rechenzyklen. Um dieser Nachfrage gerecht zu werden, ist es insbesondere für Anbieter von KI-Diensten notwendig, komplexe KI-Recheneinheiten aufzubauen. NVIDIA nennt diese Einheiten „AI Pods“, andere haben jedoch zweifellos eigene, spezielle Namen dafür. Im Wesentlichen handelt es sich dabei um Kubernetes-Cluster.

Dies bedeutet viel EW-Verkehr innerhalb der KI-Recheneinheit, aber auch viel NS-Verkehr in diese KI-Recheneinheiten. Und hier sehen wir uns mit einem erheblichen Wandel an der Grenze zwischen der traditionellen Rechenzentrumsinfrastruktur und den aufkommenden KI-Rechenkomplexen konfrontiert.

Diagramm zur Verbindung von Rechenzentrum und KI.

An dieser Grenze ist eine Menge los, insbesondere für Dienstanbieter, die eine Netzwerkisolierung pro Mandant benötigen. Darüber hinaus besteht erheblicher Bedarf an L4-7-Verkehrsmanagement, einschließlich Ratendrosselung, um die KI-Ressourcen nicht zu überlasten. Darüber hinaus gibt es den erwarteten Lastenausgleich für Skalierung und Verteilung sowie Netzwerkdienste wie erweiterte CGNAT-Funktionen.

Vieles davon wird auch von Unternehmen benötigt, die ihre KI-Implementierungen skalieren möchten, um eine wachsende Zahl geschäftlicher Anwendungsfälle zu unterstützen, die von der Produktivität über die Code- und Inhaltserstellung bis hin zur Workflow-Automatisierung und natürlich dem wachsenden Interesse an der Nutzung von KI für Betriebsabläufe reichen. Auch wenn die Isolierung einzelner Mandanten möglicherweise keine Unternehmensanforderung ist, kann sie dennoch hilfreich sein, um sicherzustellen, dass KI-Workloads mit hoher Priorität – wie Automatisierung und Betriebsanalysen – nicht durch KI-Workloads mit niedrigerer Priorität erstickt werden.

Egal ob Serviceprovider oder Großkonzern, im Rechenzentrum stehen erhebliche Veränderungen im Netzwerk an. Das Einfügen von KI-Workloads in eine herkömmliche Rechenzentrumsarchitektur kann zu Skalierungsproblemen oder sogar zum Ausfall des zuverlässigen Betriebs führen.

Es ist wichtig, die Änderungen an der Rechenzentrumsarchitektur zu verstehen und über Tools und Technologien wie BIG-IP Next SPK zu verfügen, um die erforderlichen Funktionen für die erfolgreiche Modernisierung des Rechenzentrumsnetzwerks bereitzustellen, damit jede KI-Workload und die Unternehmen, die letztendlich darauf angewiesen sind, unterstützt werden können.