Seit Jahren ist die Netzwerksegmentierung der Dreh- und Angelpunkt zur Isolierung von Bedrohungen, zur Differenzierung der Servicequalität, zur Reaktion auf und Analyse von Vorfällen, zur Prüfung der Konformität und zu vielen anderen wichtigen Interoperabilitätsfunktionen. Doch haben wir, während wir die Zero-Trust-Prinzipien preisen und in aller Eile KI einsetzen, dieses Kernelement der Netzwerkinfrastruktur vernachlässigt, das die Grundlage für moderne Cybersicherheit und Serviceabläufe bildet?
Zu Beginn unserer KI-Fabrik-Reihe haben wir eine KI-Fabrik als eine riesige Investition in Speicher-, Netzwerk- und Computertechnik definiert, die Trainings- und Inferenzanforderungen mit hohem Volumen und hoher Leistung erfüllt. Um den Return on Investment zu erzielen, planen KI-Fabriken den Einsatz hochwertiger Grafikprozessoren (GPUs) und Computer zur Durchführung dieses Trainings und dieser Inferenz dynamisch. Die Planung von GPUs erfordert die Architektur mehrerer „Mandanten“ von KI-Diensten pro KI-Cluster. Dies wirft ein Problem auf, das viele Betriebsteams erst erkennen, wenn es oft zu spät ist.
Innerhalb eines KI-Clusters können wir Ressourcen mit einem Mandantenkontext logisch segmentieren und so Mandantenkontingente, Grenzen des Ressourcenverbrauchs, Hostsystemsicherheit und rollenbasierte Zugriffskontrolle (RBAC) für die Verwaltung ermöglichen. Allerdings werden Mandantenkontexte nicht mit den grundlegenden Netzwerkdiensten offengelegt, die den ein- und ausgehenden KI-Cluster-Datenverkehr mit dem Rest des KI-Fabriknetzwerks bereitstellen. Ohne diesen Kontext, der die Grundlage der Cybersicherheit im Rechenzentrum bildet, ist die Netzwerksegmentierung blind. Typische Methoden zum Offenlegen der erforderlichen Mandantenkontexte rauben der KI-Fabrik entweder erheblich wertvolle Rechenleistung oder verlangsamen Netzwerkpfade unter die erforderlichen Grenzwerte für Servicelatenz, Bandbreite oder Parallelität. Wir stehen vor der falschen Entscheidung zwischen der effizienten Nutzung hochwertiger KI-Fabrikressourcen und der ordnungsgemäßen Integration der Mieter in das Netzwerk.
In öffentlichen Cloud-Infrastrukturen bilden orchestrierte Multi-Tenant-Netzwerkdesigns die Grundlage aller Dienste in einer Cloud-Region und werden mit Virtual Private Clouds (VPC) implementiert. Diese virtualisierte Netzwerksegmentierung ist der Schlüssel zur Sicherheit und Ressourcenmessung. Öffentliche Cloud-Anbieter erhalten diese Funktion mit Teams aus Netzwerksoftwareentwicklern und spezialisierter Netzwerkhardware, darunter SmartNICs und Datenverarbeitungseinheiten (DPUs). KI-Fabrikcluster in öffentlichen Clouds sind darauf ausgelegt, die Vorteile der zugrunde liegenden Infrastruktur der VPC-Netzwerkorchestrierung zu nutzen. Die Kosten für die Wartung von VPCs sind relativ hoch, sie bilden jedoch den Kern des Geschäftsmodells der öffentlichen Cloud.
Es stellt sich die Frage: Wie kann ein Unternehmen seine Investitionen in eine KI-Fabrik maximieren und GPUs und Rechner dynamisch planen, ohne die gleichen Investitionen wie ein öffentlicher Cloud-Anbieter tätigen zu müssen?
Die erste Station der Branche auf diesem Weg war die Nutzung der Servervirtualisierung zum Erstellen virtueller Maschinen (VMs). VMs nutzen Hardware-Pass-Through, um eine Verbindung zu segmentierten Rechenzentrumsnetzwerken herzustellen. Platzieren Sie einfach alle virtuellen Maschinen in denselben VLANs, und wir können den Betrieb wie gewohnt fortsetzen, wenn es uns nur um einen einzigen Mandanten in einem einzigen KI-Cluster geht.
VMs können sich auch mit der GPU-Segmentierung befassen, da GPU-Anbieter Möglichkeiten unterstützen, GPU-Geräte in Kern- und Speichersätze zu unterteilen und diese dann bestimmten virtuellen Maschinen zuzuweisen. Die Segmentierung von GPU-Geräten erfolgt jedoch nicht dynamisch und erfordert einen Neustart der VM. Darüber hinaus begrenzt dieses Design die Möglichkeit, einen Pool von GPU-Ressourcen zu erstellen, der über viele Mandanten hinweg gemessen werden kann. Dies sind erhebliche Nachteile dieser Lösung.
Was passiert mit unseren KI-Fabrikclustern, wenn sie einen Mieter nicht mehr bedienen können? Das Problem verlagert sich auf das Rechenzentrum. In AI-Factory-Clustern wird standardmäßig für den gesamten Netzwerkverkehr, der das Rechenzentrum verlässt, eine Quellnetzwerkadressenübersetzung (SNAT) durchgeführt, die in die IP-Adresse eines einzelnen Clusterknotens übersetzt wird, auf dem die containerisierte Workload, die die Netzwerkanforderung ausgibt, zufällig ausgeführt wird. Dadurch wird die wahre Quelle effektiv maskiert. Der Datenverkehr stammt dann aus einem Netzwerksegment, auf dem dieser Knoten bereitgestellt wurde. Bei einem Cluster mit mehreren Mandanten bedeutet dies, dass der Mandantenkontext verloren geht und wir einen gemischten Strom ausgehenden Datenverkehrs von mehreren Mandanten erhalten, der unmöglich zu sortieren, zu sichern, Fehler zu beheben oder zu prüfen ist.
Standardmäßig geht der Cluster-Mandantenkontext beim Austritt verloren.
Dieses Problem wird noch verschärft, wenn eingehender Datenverkehr einbezogen wird. Eingehender Datenverkehr lässt sich zwar möglicherweise leichter verwalten, da er aus einem bereits segmentierten Rechenzentrum geleitet wird, aber wie lässt sich der eingehende Datenverkehr eines einzelnen Mieters mit seinem ausgehenden Datenverkehr korrelieren? Die Antwort dreht sich um Retrieval-Augmented Generation ( RAG ) und Agentendienste, die intensiv kommunizieren, um externe Daten zu erfassen und externe Dienste zu nutzen. Dies wird zu einer teamübergreifenden Anstrengung, bei der Plattformingenieure und NetOps ein Problem für einen Kunden identifizieren oder versuchen, Sicherheitsprüfungen zu bestehen.
Unternehmen fragen sich möglicherweise: „Warum können wir nicht einfach die Overlay-Technologie für Software-Defined Networking (SDN) verwenden und VPC-Netzwerke aufbauen, wie es Hyperscaler tun?“ Dies ist durchaus möglich, verlagert jedoch die Kosten auf die Wartung von SDN-VPC-Netzwerken über die vorhandene Rechenzentrumsinfrastruktur. Wenn eine Segmentierung der Schicht 2 (z. B. VxLAN) gewünscht ist, wird die Orchestrierung von Tunneln mit Top-of-Rack-Switching und die Bereitstellung dieser Switches entsprechend der Netzwerksegmentierung zum Problem. Aus diesem Grund entschieden sich Hyperscaler für SmartNICs und wechselten zu einer Orchestrierung auf Host-zu-Host-Ebene, wodurch die Rechenzentrumsnetzwerke schnell und unintelligent wurden.
Die meisten Organisationen verfügen nicht über das nötige Talent für die Netzwerkprogrammierung oder den Wunsch, eine derart komplexe Orchestrierung auf Hostebene zu besitzen, oder sie können einfach nicht auf die für die Servicequalität erforderliche Sichtbarkeit des Backbone-Netzwerks verzichten. Vorgeschlagene Routing-Lösungen (Layer 3, z. B. IP) zur Lösung dieser Probleme haben Netzwerkteams dazu veranlasst, jeden einzelnen KI-Clusterknoten zu einem Peer für dynamisches Routing (BGP) zum Rechenzentrum zu machen, wobei mehrere Route-Reflektoren versuchen, eine grundlegende IP-Subnetz-Miete bereitzustellen. Auch dies stellt die Betreiber vor sehr komplexe Routing-Probleme und Sicherheitsprüfungen und hat zu landesweiten Ausfällen geführt.
KI-Fabriken müssen eine programmierbare, sichere Lösung mit geringer Latenz und vielen Netzwerkfunktionen planen, die sowohl hinsichtlich der Bandbreite als auch der Parallelität skalierbar ist. Mandantenkontexte auf Ebene 2 (z. B. VLANs, VxLAN) und Ebene 3 (z. B. Subnetze, IPSEC-Schnittstellen) müssen innerhalb eines Clusters dem KI-Fabriknetzwerk präsentiert werden. NetOps müssen Beobachtungsmetriken, Protokolle und Debugging-Tools zur Verfügung stehen.
Traditionell werden viele dieser Lösungen für Application und Sichtbarkeit von F5 BIG-IP bereitgestellt. F5 BIG-IP Container Ingress Services (CIS) erkennt Kubernetes-Dienste dynamisch und stellt sie Rechenzentren als virtuelle Server zur Verfügung, ein Konfigurationsobjekt, mit dem BIG-IP-Administratoren durch die Konfiguration zur Darstellung physischer Server und virtueller Maschinen vertraut sind. BIG-IP erfüllt zwar viele der Anforderungen, die wir an eine Lösung stellen, verwaltet jedoch nicht den ausgehenden Datenverkehr vom KI-Cluster in das KI-Fabriknetzwerk, der zur Aufrechterhaltung der Segmentierung erforderlich ist.
Um dieses Problem zu lösen, haben wir F5 BIG-IP Next für Kubernetes entwickelt, eine Lösung für Multi-Tenant-Rechnercluster, die auf unserer Plattform der nächsten Generation BIG-IP Next basiert.
BIG-IP Next für Kubernetes ermöglicht NetOps, Cluster-Mandanten Netzwerksegmenten zuzuordnen.
BIG-IP Next für Kubernetes wird vollständig über die Kubernetes-Steuerebene verwaltet und unterstützt die Kubernetes-Verwaltungsauthentifizierung sowie RBAC für alle deklarierten Ressourcen. Außerdem erkennt es die Kubernetes-Miete über Namespaces, um die erforderliche Netzwerksegmentierung für eingehenden und ausgehenden Datenverkehr zu unterstützen. Dies ist der Schlüssel für Architekturen, bei denen die Orchestrierung an erster Stelle steht, wie etwa KI-Fabriken.
BIG-IP Next für Kubernetes bietet NetOps eine vereinfachte Möglichkeit, die Zuordnungen zwischen Kubernetes-Namespaces und Netzwerksegmenten zu deklarieren. Dynamisches Routen-Peering zwischen dem AI-Fabriknetzwerk und BIG-IP Next-Instanzen verwendet eine vertraute Routenkonfigurationssyntax. NetOps-Teams verfügen über die einzigartige Fähigkeit, Live-Netzwerk-Streams für den Cluster-Ein- und -Ausgang sicher zu beheben. SecOps-Teams erhalten pro Cluster-Tenant Ein- und Ausgangs-Firewall-Zugriffskontrolllisten (ACLs), Distributed-Denial-of-Service- (DDoS) und IPS-Funktionen.
BIG-IP Next für Kubernetes entlastet die Plattform-Engineering-Teams von ihren Rechenressourcen, indem es Netzwerkfunktionen wie die Verarbeitung eingehender und ausgehender Daten sowie Source NAT und Firewall auslagert. Dies trägt zur Senkung der Betriebskosten bei und sorgt dafür, dass die Dienste verfügbar und effizient bleiben.
BIG-IP Next für Kubernetes unterstützt auch die Kubernetes Gateway API, die erste Community-Ingress-API, die für bestimmte organisatorische Rollen in NetOps, Plattform-Engineering, DevOps und MLOps modelliert wurde. Über die Gateway-API erweitert BIG-IP Next für Kubernetes typische portbasierte Layer-4- oder HTTP(S)-Routen-Ingress-Dienste auf Layer 7 zu einer Suite für DevOps/MLOps, nämlich TCPRoute, UDPRoute, HTTPRoute, TLSRoute und GRPCRoute – die alle über dieselbe CI/CD-Automatisierung in den wichtigsten KI-Frameworks gesteuert werden.
Aus Managementsicht sorgt BIG-IP Next für Kubernetes dafür, dass NetOps, SecOps, Plattform-Engineering, DevOps und MLOps durch Kubernetes-API-Deklarationen effektiv zusammenarbeiten. Es bietet alles, was Sie von BIG-IP erwarten, allerdings aus der Kubernetes-Perspektive und unterstützt gleichzeitig die Netzwerksegmentierung.
Datenverarbeitungseinheiten (DPU) haben in KI-Fabriken exponentiell an Bedeutung gewonnen. Definiert in einem früheren Blogbeitrag in unserer KI-Fabrik-ReiheEine DPU ist ein programmierbarer Prozessor, der für die Bewegung und Verarbeitung großer Datenmengen mittels Hardwarebeschleunigung bei Netzwerkleitungsgeschwindigkeit ausgelegt ist. Durch Produktinnovationen bei F5 und die Zusammenarbeit mit NVIDIA haben wir BIG-IP Next für Kubernetes veröffentlicht, um Datenflüsse für ein- und ausgehenden Datenverkehr auszulagern und gleichzeitig die Netzwerksegmentierung sowie Sicherheitsfunktionen zu unterstützen, indem wir es unter Verwendung der DOCA-APIs von NVIDIA auf den NVIDIA BlueField-3-DPUs bereitstellen. Dadurch wird die Investition in eine KI-Fabrik maximiert, indem sichergestellt wird, dass KI-Cluster mit Daten gefüttert werden.
Bei Investitionen in KI-Fabriken ist die Gewährleistung einer optimierten, effizienten und skalierbaren Infrastruktur nicht verhandelbar. F5 BIG-IP Next für Kubernetes, bereitgestellt auf NVIDIA BlueField-3 DPUs, bietet die für die dynamische GPU- und Computerplanung erforderliche Netzwerksegmentierung und liefert gleichzeitig hochleistungsfähige Skalierbarkeit, um den Return on Investment (ROI) von KI-Investitionen zu maximieren. Um mehr zu erfahren, wenden Sie sich an F5 , um mit Ihrem F5-Accountmanager und Lösungsingenieur oder -architekten in Kontakt zu treten.
Möchten Sie mehr über KI-Fabriken erfahren? Entdecken Sie weitere in unserer AI Factory-Blogserie: