Im ersten Halbjahr dieses Jahres hat man mit der Standardisierung von Inferenzbereitstellungsmustern und einer neuen KI-Anwendungsarchitektur begonnen, die eine bessere Perspektive auf zukünftige Auswirkungen auf alle Bereiche vom Netzwerk bis hin zur Anwendungsbereitstellung und -sicherheit bieten. Aufgrund der Ergebnisse unserer jüngsten KI-orientierten Forschung sind wir davon überzeugt, dass Inferenz sowohl vor Ort als auch in der Cloud (selbstverwaltetes Muster) eingesetzt und über Angebote von Cloud-Anbietern (in der Cloud gehostetes Muster) und als Dienst (Inferenz als Dienstmuster) genutzt wird.
Die aufkommende KI-Architektur basiert jedoch stark auf Retrieval Augmented Generation (RAG), die Datenquellen (Wissensgraphen und Vektordatenbanken) in die Anwendungsarchitektur integriert. Untersuchungen zeigen, dass „70 % der Unternehmen, die GenAI nutzen, Tools und Vektordatenbanken verwenden, um Basismodelle zu erweitern.“ ( Databricks, 2024 )
Dieses Architekturmuster hat vier Konsequenzen.
Es ist wichtig zu beachten, dass 90 % der Herausforderungen, denen Organisationen in Bezug auf die KI-Architektur gegenüberstehen, nicht neu sind. Änderungen zur Erfüllung der Erwartungen hinsichtlich Sichtbarkeit, Ratenbegrenzung, Routing usw. erfolgen inkrementell zu vorhandenen Funktionen, über die die meisten Unternehmen bereits verfügen.
Von allen Fähigkeiten, die für die Bereitstellung und Sicherung von KI-Anwendungen erforderlich sind, sind meiner Schätzung nach lediglich 10 % völlig neu, und fast alle davon beziehen sich auf Eingabeaufforderungen und die unstrukturierte Natur des KI-Anwendungsverkehrs. Diese 10 % führen zu neuen Anwendungsdiensten wie Prompt-Sicherheit, Prompt-Management und Prompt-Optimierung sowie datensicherheitsbezogenen Funktionen. Durch Partnerschaften mit Portkey und Prompt Security hat F5 bereits sein Engagement zur Erfüllung dieser Anforderungen unter Beweis gestellt.
Hier erleben wir auch die Einführung von KI-Gateways. Nun variieren die Definition von KI-Gateways und die Funktionen, die sie auf den Markt bringen, je nachdem, wer das „Ding“ anbietet. Doch wie API-Gateways vereinen KI-Gateways tendenziell Sicherheits- und Anwendungsrouting-Funktionen in einem einzigen, strategischen Kontrollpunkt für Unternehmen. Aber nochmals: Bei den Fähigkeiten des „Dings“ handelt es sich größtenteils um inkrementelle neue Fähigkeiten, die speziell auf den KI-Verkehr zugeschnitten sind, und der Rest ist bereits vorhanden.
Das wirklich Interessante für mich ist die neue Ebene, weil dort neue und vorhandene Funktionen für die Anwendungsbereitstellung und -sicherheit benötigt werden.
Tatsächlich führt die Einführung einer neuen Ebene zur Entstehung einer neuen Rechenzentrumsarchitektur mit einer Infrastruktur, die in der Lage ist, die Rechen-, Speicher- und Netzwerkressourcen bereitzustellen, die zum Ausführen von KI-Inferenzen im großen Maßstab erforderlich sind. Auf dieser Ebene entstehen Dinge wie KI-Netzwerkstrukturen oder KI-Fabriken oder wie auch immer wir sie nennen. Unabhängig von der Bezeichnung beinhaltet dieses neue Infrastrukturkonstrukt die Fähigkeit, bestehende Infrastrukturkonstrukte auf neuen Hardwaresystemen zu betreiben . Das ist Nr. 4 im bereitgestellten praktischen Diagramm.
Aber auch bei Nr. 2 werden einige neue Fähigkeiten benötigt. Während es sich bei der Brücke hier um einen ziemlich standardmäßigen N-S-Datenpfad handelt, bei dem es offensichtlich erforderlich ist, den API-Verkehr zu skalieren, zu sichern und weiterzuleiten (ja, diese API dient zum Inferenzieren, ist aber dennoch eine API), werden wir an dieser Stelle wahrscheinlich neue Algorithmen zum Lastenausgleich sehen – oder zumindest neue Entscheidungskriterien, die in vorhandene Algorithmen integriert werden.
Beispielsweise sind die Anzahl der Token und die Kontextfenster besonders wichtig für das Verständnis der Leistung und der Belastung, die eine bestimmte Anforderung für das empfangende System bedeutet, ganz zu schweigen von den Auswirkungen der Tokenanzahl auf die Kosten. Daher ist es kein großer logischer Schritt, zu erkennen, dass diese Variablen Teil jeder unter Punkt 2 getroffenen Entscheidung zum Lastenausgleich/Verkehrsrouting sein können.
Punkt 4 ist vielleicht der interessanteste, weil er uns in die Zeit zurückversetzt, in der man Hardware nutzte, um Server von Netzwerkaufgaben zu entlasten. Ja, dies ist die Rückkehr des Architekturansatzes „ Server dienen lassen “. In der modernen Welt bedeutet dies, dass DPUs als ganzheitliches System genutzt werden, auf dem Anwendungsbereitstellung und Sicherheit implementiert werden können, während die CPU auf dem Inferenzserver für die Inferenz zuständig ist. Es handelt sich um ein Muster, das wir schon einmal gesehen haben und mit dem sich alle Probleme im Zusammenhang mit der Skalierung (und damit der Leistung) von Inferenzdiensten erfolgreich lösen lassen.
Die Auswirkungen der KI-Architektur auf die Anwendungsbereitstellung und -sicherheit sind sowohl banal als auch monumental. Es ist banal, denn die Herausforderungen sind meist die gleichen. Es ist von bahnbrechender Bedeutung, weil es zusätzliche Punkte in der Architektur einführt, an denen Organisationen diese Herausforderungen strategisch angehen können.
Die Reaktion der Branche auf alltägliche und monumentale Herausforderungen wird die Zukunft der Anwendungsbereitstellung und -sicherheit prägen.