Die Bedeutung der Netzwerksegmentierung für KI-Fabriken

John Gruber

Veröffentlicht am 31. Dezember 2024

Seit Jahren ist die Netzwerksegmentierung der Dreh- und Angelpunkt zur Isolierung von Bedrohungen, zur Differenzierung der Servicequalität, zur Reaktion auf und Analyse von Vorfällen, zur Prüfung der Konformität und zu vielen anderen wichtigen Interoperabilitätsfunktionen. Doch haben wir, während wir die Zero-Trust-Prinzipien preisen und in aller Eile KI einsetzen, dieses Kernelement der Netzwerkinfrastruktur vernachlässigt, das die Grundlage für moderne Cybersicherheit und Serviceabläufe bildet?

Zu Beginn unserer KI-Fabrik-Reihe haben wir eine KI-Fabrik als eine riesige Investition in Speicher-, Netzwerk- und Computertechnik definiert, die Trainings- und Inferenzanforderungen mit hohem Volumen und hoher Leistung erfüllt. Um den Return on Investment zu erzielen, planen KI-Fabriken den Einsatz hochwertiger Grafikprozessoren (GPUs) und Computer zur Durchführung dieses Trainings und dieser Inferenz dynamisch. Die Planung von GPUs erfordert die Architektur mehrerer „Mandanten“ von KI-Diensten pro KI-Cluster. Dies wirft ein Problem auf, das viele Betriebsteams erst erkennen, wenn es oft zu spät ist.

KI-Fabrik-Clusterressourcen auf Netzwerksegmentierung abstimmen

Innerhalb eines KI-Clusters segmentieren wir Ressourcen logisch anhand eines Mandantenkontexts. So gewährleisten wir Mandantenkontingente, begrenzen Ressourcenverbrauch, sichern Hostsysteme ab und steuern den Zugriff zielgerichtet mit rollenbasierter Zugriffskontrolle (RBAC). Allerdings sind Mandantenkontexte in den grundlegenden Netzwerkdiensten, die den ein- und ausgehenden Datenverkehr des KI-Clusters mit dem restlichen Netzwerk der KI-Fabrik verbinden, nicht sichtbar. Ohne diesen Kontext – dem Fundament der Cybersicherheit im Rechenzentrum – wird Netzwerksegmentierung blind und damit wirkungslos. Bekannte Verfahren, die nötigen Mandantenkontexte sichtbar zu machen, kosten der KI-Fabrik entweder wertvolle Rechenleistung oder bremsen die Netzwerkverbindungen unter die erforderlichen Standards bei Latenz, Bandbreite und gleichzeitiger Nutzung. So stehen Sie vor der falschen Wahl zwischen einer effizienten Nutzung der hochwertigen Ressourcen Ihrer KI-Fabrik und einer ordnungsgemäßen Mandantenintegration ins Netzwerk.

In öffentlichen Cloud-Infrastrukturen bilden orchestrierte Multi-Tenant-Netzwerkdesigns die Basis aller Dienste innerhalb einer Cloud-Region und werden durch virtuelle private Clouds (VPC) umgesetzt. Diese virtualisierte Netzwerksegmentierung ist entscheidend für Ihre Sicherheit und die genaue Erfassung der Ressourcen. Öffentliche Cloud-Anbieter sichern diese Funktion durch Teams aus Netzwerksoftwareentwicklern und spezialisierter Netzwerktechnik, wie SmartNICs und Data Processing Units (DPUs). KI-Fabrikcluster in öffentlichen Clouds sind speziell so konzipiert, dass sie die Infrastruktur und die VPC-Netzwerkorchestrierung optimal nutzen. Die Kosten, um VPCs zu betreiben und zu pflegen, sind beträchtlich, doch sie bilden das Rückgrat des Geschäftsmodells der öffentlichen Cloud.

Es stellt sich die Frage: Wie kann ein Unternehmen seine Investitionen in eine KI-Fabrik maximieren und GPUs und Rechner dynamisch planen, ohne die gleichen Investitionen wie ein öffentlicher Cloud-Anbieter tätigen zu müssen?

Die erste Station der Branche auf diesem Weg war die Nutzung der Servervirtualisierung zum Erstellen virtueller Maschinen (VMs). VMs nutzen Hardware-Pass-Through, um eine Verbindung zu segmentierten Rechenzentrumsnetzwerken herzustellen. Platzieren Sie einfach alle virtuellen Maschinen in denselben VLANs, und wir können den Betrieb wie gewohnt fortsetzen, wenn es uns nur um einen einzigen Mandanten in einem einzigen KI-Cluster geht.

Virtuelle Maschinen können GPU-Segmentierung nutzen, da GPU-Hersteller Methoden unterstützen, GPU-Geräte in Kerne und Speicherbereiche aufzuteilen und dann bestimmten virtuellen Maschinen zuzuweisen. Allerdings ist die Segmentierung von GPU-Geräten nicht dynamisch und erfordert einen Neustart der virtuellen Maschine. Außerdem schränkt dieses Konzept die Möglichkeit ein, einen GPU-Ressourcenpool aufzubauen, der über viele Mandanten hinweg abgerechnet werden kann. Diese Nachteile wiegen bei dieser Lösung schwer.

Netzwerksegmentierung mit Multi-Tenant-KI-Fabrikclustern ausrichten

Was passiert mit unseren KI-Fabrikclustern, wenn sie einen Mieter nicht mehr bedienen können? Das Problem verlagert sich auf das Rechenzentrum. In AI-Factory-Clustern wird standardmäßig für den gesamten Netzwerkverkehr, der das Rechenzentrum verlässt, eine Quellnetzwerkadressenübersetzung (SNAT) durchgeführt, die in die IP-Adresse eines einzelnen Clusterknotens übersetzt wird, auf dem die containerisierte Workload, die die Netzwerkanforderung ausgibt, zufällig ausgeführt wird. Dadurch wird die wahre Quelle effektiv maskiert. Der Datenverkehr stammt dann aus einem Netzwerksegment, auf dem dieser Knoten bereitgestellt wurde. Bei einem Cluster mit mehreren Mandanten bedeutet dies, dass der Mandantenkontext verloren geht und wir einen gemischten Strom ausgehenden Datenverkehrs von mehreren Mandanten erhalten, der unmöglich zu sortieren, zu sichern, Fehler zu beheben oder zu prüfen ist.

Knoten-Grausuppe-Diagramm

Standardmäßig geht der Cluster-Mandantenkontext beim Austritt verloren.

Dieses Problem wird noch verschärft, wenn eingehender Datenverkehr einbezogen wird. Eingehender Datenverkehr lässt sich zwar möglicherweise leichter verwalten, da er aus einem bereits segmentierten Rechenzentrum geleitet wird, aber wie lässt sich der eingehende Datenverkehr eines einzelnen Mieters mit seinem ausgehenden Datenverkehr korrelieren? Die Antwort dreht sich um Retrieval-Augmented Generation ( RAG ) und Agentendienste, die intensiv kommunizieren, um externe Daten zu erfassen und externe Dienste zu nutzen. Dies wird zu einer teamübergreifenden Anstrengung, bei der Plattformingenieure und NetOps ein Problem für einen Kunden identifizieren oder versuchen, Sicherheitsprüfungen zu bestehen.

Unternehmen fragen sich möglicherweise: „Warum können wir nicht einfach die Overlay-Technologie für Software-Defined Networking (SDN) verwenden und VPC-Netzwerke aufbauen, wie es Hyperscaler tun?“ Dies ist durchaus möglich, verlagert jedoch die Kosten auf die Wartung von SDN-VPC-Netzwerken über die vorhandene Rechenzentrumsinfrastruktur. Wenn eine Segmentierung der Schicht 2 (z. B. VxLAN) gewünscht ist, wird die Orchestrierung von Tunneln mit Top-of-Rack-Switching und die Bereitstellung dieser Switches entsprechend der Netzwerksegmentierung zum Problem. Aus diesem Grund entschieden sich Hyperscaler für SmartNICs und wechselten zu einer Orchestrierung auf Host-zu-Host-Ebene, wodurch die Rechenzentrumsnetzwerke schnell und unintelligent wurden.

Die meisten Organisationen verfügen nicht über das nötige Talent für die Netzwerkprogrammierung oder den Wunsch, eine derart komplexe Orchestrierung auf Hostebene zu besitzen, oder sie können einfach nicht auf die für die Servicequalität erforderliche Sichtbarkeit des Backbone-Netzwerks verzichten. Vorgeschlagene Routing-Lösungen (Layer 3, z. B. IP) zur Lösung dieser Probleme haben Netzwerkteams dazu veranlasst, jeden einzelnen KI-Clusterknoten zu einem Peer für dynamisches Routing (BGP) zum Rechenzentrum zu machen, wobei mehrere Route-Reflektoren versuchen, eine grundlegende IP-Subnetz-Miete bereitzustellen. Auch dies stellt die Betreiber vor sehr komplexe Routing-Probleme und Sicherheitsprüfungen und hat zu landesweiten Ausfällen geführt.

Clusterbewusste orchestrierte Netzwerksegmentierung für KI-Fabriken

KI-Fabriken müssen eine programmierbare, sichere Lösung mit geringer Latenz und vielen Netzwerkfunktionen planen, die sowohl hinsichtlich der Bandbreite als auch der Parallelität skalierbar ist. Mandantenkontexte auf Ebene 2 (z. B. VLANs, VxLAN) und Ebene 3 (z. B. Subnetze, IPSEC-Schnittstellen) müssen innerhalb eines Clusters dem KI-Fabriknetzwerk präsentiert werden. NetOps müssen Beobachtungsmetriken, Protokolle und Debugging-Tools zur Verfügung stehen.

Traditionell werden viele dieser Lösungen für Application und Sichtbarkeit von F5 BIG-IP bereitgestellt. F5 BIG-IP Container Ingress Services (CIS) erkennt Kubernetes-Dienste dynamisch und stellt sie Rechenzentren als virtuelle Server zur Verfügung, ein Konfigurationsobjekt, mit dem BIG-IP-Administratoren durch die Konfiguration zur Darstellung physischer Server und virtueller Maschinen vertraut sind. BIG-IP erfüllt zwar viele der Anforderungen, die wir an eine Lösung stellen, verwaltet jedoch nicht den ausgehenden Datenverkehr vom KI-Cluster in das KI-Fabriknetzwerk, der zur Aufrechterhaltung der Segmentierung erforderlich ist.

Um dieses Problem zu lösen, haben wir F5 BIG-IP Next für Kubernetes entwickelt, eine Lösung für Multi-Tenant-Rechnercluster, die auf unserer Plattform der nächsten Generation BIG-IP Next basiert.

Knoten-Grausuppe-Diagramm

BIG-IP Next für Kubernetes ermöglicht NetOps, Cluster-Mandanten Netzwerksegmenten zuzuordnen.

Wir verwalten BIG-IP Next für Kubernetes vollständig über die Kubernetes-Kontrollebene, integrieren die Kubernetes-Authentifizierung, erteilen RBAC-Rechte für alle angegebenen Ressourcen und berücksichtigen die Kubernetes-Mandantenstruktur über Namespaces, um die nötige Netzwerksegmentierung für ein- und ausgehenden Datenverkehr sicherzustellen. Das ist für orchestrierungsbasierte Architekturen wie KI-Fabriken von zentraler Bedeutung.

BIG-IP Next für Kubernetes bietet NetOps eine vereinfachte Möglichkeit, die Zuordnungen zwischen Kubernetes-Namespaces und Netzwerksegmenten zu deklarieren. Dynamisches Routen-Peering zwischen dem AI-Fabriknetzwerk und BIG-IP Next-Instanzen verwendet eine vertraute Routenkonfigurationssyntax. NetOps-Teams verfügen über die einzigartige Fähigkeit, Live-Netzwerk-Streams für den Cluster-Ein- und -Ausgang sicher zu beheben. SecOps-Teams erhalten pro Cluster-Tenant Ein- und Ausgangs-Firewall-Zugriffskontrolllisten (ACLs), Distributed-Denial-of-Service- (DDoS) und IPS-Funktionen.

Für Ihre Plattform-Engineering-Teams entlastet BIG-IP Next für Kubernetes die Rechenressourcen, indem es Netzwerkfunktionen wie die Verarbeitung des eingehenden und ausgehenden Datenverkehrs sowie Source NAT und Firewalling übernimmt. Damit senken Sie Betriebskosten, während Ihre Services verfügbar und effizient bleiben.

BIG-IP Next für Kubernetes unterstützt auch die Kubernetes Gateway API, die erste Community-Ingress-API, die für bestimmte organisatorische Rollen in NetOps, Plattform-Engineering, DevOps und MLOps modelliert wurde. Über die Gateway-API erweitert BIG-IP Next für Kubernetes typische portbasierte Layer-4- oder HTTP(S)-Routen-Ingress-Dienste auf Layer 7 zu einer Suite für DevOps/MLOps, nämlich TCPRoute, UDPRoute, HTTPRoute, TLSRoute und GRPCRoute – die alle über dieselbe CI/CD-Automatisierung in den wichtigsten KI-Frameworks gesteuert werden.

Aus Managementsicht sorgt BIG-IP Next für Kubernetes dafür, dass NetOps, SecOps, Plattform-Engineering, DevOps und MLOps durch Kubernetes-API-Deklarationen effektiv zusammenarbeiten. Es bietet alles, was Sie von BIG-IP erwarten, allerdings aus der Kubernetes-Perspektive und unterstützt gleichzeitig die Netzwerksegmentierung.

Der Aufstieg der DPU

Datenverarbeitungseinheiten (DPU) haben in KI-Fabriken exponentiell an Bedeutung gewonnen. Definiert in einem früheren Blogbeitrag in unserer KI-Fabrik-ReiheEine DPU ist ein programmierbarer Prozessor, der für die Bewegung und Verarbeitung großer Datenmengen mittels Hardwarebeschleunigung bei Netzwerkleitungsgeschwindigkeit ausgelegt ist. Durch Produktinnovationen bei F5 und die Zusammenarbeit mit NVIDIA haben wir BIG-IP Next für Kubernetes veröffentlicht, um Datenflüsse für ein- und ausgehenden Datenverkehr auszulagern und gleichzeitig die Netzwerksegmentierung sowie Sicherheitsfunktionen zu unterstützen, indem wir es unter Verwendung der DOCA-APIs von NVIDIA auf den NVIDIA BlueField-3-DPUs bereitstellen. Dadurch wird die Investition in eine KI-Fabrik maximiert, indem sichergestellt wird, dass KI-Cluster mit Daten gefüttert werden.

KI-Fabriken mit F5-Technologie

Bei Investitionen in KI-Fabriken ist die Gewährleistung einer optimierten, effizienten und skalierbaren Infrastruktur nicht verhandelbar. F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs, bietet die für die dynamische GPU- und Computerplanung erforderliche Netzwerksegmentierung und liefert gleichzeitig hochleistungsfähige Skalierbarkeit, um den Return on Investment (ROI) von KI-Investitionen zu maximieren. Um mehr zu erfahren, wenden Sie sich an F5 , um mit Ihrem F5-Accountmanager und Lösungsingenieur oder -architekten in Kontakt zu treten.

Möchten Sie mehr über KI-Fabriken erfahren? Entdecken Sie weitere in unserer AI Factory-Blogserie: