Generative KI beschleunigt den Einfluss von KI auf die Infrastruktur. Wir befanden uns bereits in einer Infrastruktur-Renaissance , in der das Interesse und die Bewunderung der Techniker für die einfachen Netzwerk-, Rechen- und Speicherebenen der Rechenzentren wieder auflebten. Vor allem bedingt durch den „Tod“ des Mooreschen Gesetzes und die Entstehung des Edge Computing erlebten wir bereits vor Jahren den Aufstieg spezialisierter Verarbeitungseinheiten – xPUs.
Heutzutage sind GPUs aufgrund der generativen KI – und, um fair zu sein, auch aufgrund von Videospielen – ein allgemein bekannter Begriff und GPU-Optimierung zu einem neuen Bedürfnis geworden.
Das liegt daran, dass eine hohe Nachfrage nach GPUs besteht, das Angebot jedoch knapp ist. Unternehmen geben bereits einen erheblichen Anteil ihres gesamten IT-Budgets für diese leistungsstarke Hardware aus oder planen dies. Ein Teil dieser Investitionen fließt in die eigene Infrastruktur, ein anderer Teil in die Unterstützung der öffentlichen Cloud-Infrastruktur.
Dies alles dient jedoch der Unterstützung der Verfügbarkeit von GPU-Ressourcen für den Betrieb von KI-Anwendungen .
Doch wenn wir uns umschauen, stellen wir fest, dass die Einführung einer neuen Art von Ressource in die Infrastruktur Herausforderungen mit sich bringt. Jahrelang haben Organisationen die Infrastruktur als Ware behandelt. Das heißt, es ist alles dasselbe.
Und das war größtenteils auch der Fall. Organisationen standardisierten sich auf White Boxes oder Markenserver, alle mit derselben Speicher- und Rechenkapazität. Dies vereinfachte den Betrieb der Infrastruktur, da sich das Verkehrsmanagement nicht darum kümmern musste, ob eine Arbeitslast auf Server8756 oder Server4389 ausgeführt wurde. Sie hatten die gleichen Fähigkeiten.
Aber jetzt? Oh, GPUs ändern das alles. Jetzt müssen Infrastrukturbetreiber wissen, wo sich GPU-Ressourcen befinden und wie sie genutzt werden. Und es gibt Anzeichen dafür, dass es vielleicht nicht so gut läuft.
Laut dem State of AI Infrastructure at Scale 2024 „geben 15 % an, dass weniger als 50 % ihrer verfügbaren und gekauften GPUs im Einsatz sind.“
Nun ist es durchaus möglich, dass diese 15 % der Organisationen einfach nicht über die erforderliche Last verfügen, um mehr als 50 % ihrer GPU-Ressourcen zu nutzen. Es ist auch möglich, dass dies der Fall ist, es aber nicht ist.
Sicherlich werden sich einige Unternehmen in der letzteren Kategorie wiederfinden und sich den Kopf darüber zerbrechen, warum ihre KI-Apps nicht die Leistung erbringen, die die Benutzer erwarten, obwohl sie über reichlich freie GPU-Kapazität verfügen.
Ein Teil davon betrifft die Infrastruktur und die Sicherstellung, dass die Arbeitslasten den erforderlichen Ressourcen angemessen sind. Schließlich benötigt nicht jede Arbeitslast in einer KI-App GPU-Kapazität. Die Arbeitslast, die davon profitiert, ist der Inferenzserver und sonst nicht viel. Dies erfordert strategische Architekturarbeit auf der Infrastrukturebene, um sicherzustellen, dass GPU-hungrige Workloads auf GPU-fähigen Systemen ausgeführt werden, während andere App-Workloads auf normalen alten Systemen laufen.
Das bedeutet Bereitstellungsrichtlinien, die erkennen, welche Knoten GPU-fähig sind und welche nicht. Das ist ein großer Teil der GPU-Optimierung. Dies bedeutet auch, dass die App-Dienste, die Anfragen an diese Ressourcen verteilen, ebenfalls intelligenter sein müssen. Lastausgleich , Eingangskontrolle und Gateways , die Anfragen verteilen, sind Teil der Effizienzgleichung, wenn es um die Nutzung der Infrastruktur geht. Wenn jede Anforderung an ein oder zwei GPU-fähige Systeme geht, ist die Leistung dieser Systeme nicht nur schlecht, sondern den Organisationen bleibt auch „überschüssige“ GPU-Kapazität, für die sie viel Geld bezahlt haben.
Dies kann auch bedeuten, diese GPU-Ressourcen in der öffentlichen Cloud zu nutzen. Und dazu müssen Netzwerkdienste genutzt werden, um die Sicherheit der gemeinsam genutzten Daten zu gewährleisten.
Mit anderen Worten: KI-Anwendungen werden erhebliche Auswirkungen auf die Infrastruktur haben, sowohl hinsichtlich ihrer Verteilung als auch hinsichtlich der Art und Weise, wie sie in Echtzeit bereitgestellt und verwaltet wird. Der Bedarf an Telemetrie wird steigen, um sicherzustellen, dass der Betrieb einen aktuellen Überblick darüber hat, welche Ressourcen wo verfügbar sind. Zudem wird eine gute Automatisierung erforderlich sein, um sicherzustellen, dass die Bereitstellung den Arbeitslastanforderungen entspricht.
Aus diesem Grund müssen Organisationen ihre gesamte Unternehmensarchitektur modernisieren . Denn es geht nicht mehr nur um Schichten oder Ebenen, sondern darum, wie diese Schichten und Ebenen miteinander verbunden sind und sich gegenseitig unterstützen, um den Anforderungen eines digital ausgereiften Unternehmens gerecht zu werden, das die Leistungsfähigkeit von KI nutzen kann.