BLOG | BÜRO DES CTO

An der Schnittstelle zwischen Betriebsdaten und generativer KI

James Hendergart Miniaturbild
James Hendergart
Veröffentlicht am 22. Oktober 2024

Gerüchte über generative KI (GenAI) kommen von überall her. Die Frage ist: Was setzt sich durch? Wie wird die Welt dadurch zu einem besseren Ort? Wo liegt der Geschäftswert? Diese Fragen sind gleichermaßen relevant, wenn man die Herausforderungen bedenkt, vor denen Unternehmen stehen, die herausfinden möchten, ob und wann sie GenAI in ihren Betrieb (AIOps) implementieren sollen. Auf Grundlage meiner im letzten Jahr erfolgten Experimente mit generativer KI und meiner umfassenden Auseinandersetzung mit Branchentrends während meiner täglichen Forschung bei F5 biete ich die folgenden fünf Erkenntnisse an, die als Orientierungshilfe für Unternehmen dienen sollen, die die Auswirkungen von GenAI auf operative Datenpraktiken verstehen möchten. Dadurch sind diese Unternehmen besser in der Lage, die Zeitpläne für die Einführung der GenAI-Technologie an ihre bestehenden Budgets, Praktiken und Kulturen anzupassen.

1. GenAI-Modelle lieben halbstrukturierte und unstrukturierte Daten

Betriebsdaten sind ein Sammelsurium aus halbstrukturierten Daten (Objekten) und unstrukturierten Datensätzen. Große Sprachmodelle (LLMs) sind bei dieser Reihe von Datenformaten äußerst flexibel und effektiv. Dies macht LLMs zu einer perfekten Technologie für die Analyse operativer Datensätze. Organisationen können eine Reihe von Experimenten und Bewertungen intern durchführen, um die Wirksamkeit, Benutzerfreundlichkeit und Kosten verschiedener GenAI-fähiger Lösungen zu überprüfen. Durch die Verwendung von LLM-Inferenz zum Erkennen interessanter Datenmuster mit weniger Fehlalarmen werden Geschwindigkeit und Umfang der Maschinen an die Ziele der Teams angepasst, die operative Datenflüsse nutzen.

2. Organisationen müssen keine Modelle erstellen

Organisationen, die sich darauf konzentrieren, zu wissen, welche Techniken von welchen Modellen für ihre spezifischen Aufgaben verwendet werden, müssen keine eigenen Modelle erstellen. Beispielsweise erweist sich die Named Entity Recognition (NER), ein Zweig der Verarbeitung natürlicher Sprache (NLP), als effektive Technik zum Festlegen von Schlüsselelementen in halbstrukturierten Daten. Ein Beispiel für NER könnte eine Liste sein, die eine Kategorie wie „Wochentage“ oder eine Beschreibung wie „ganze Zahlen größer als 1 und kleiner als 5“ umfasst. Das Ergebnis ist eine höhere Genauigkeit bei der Inferenz als bei regelbasierten Mustervergleichstechniken, die nicht GenAI-fähig sind. Da sich Forschung und Praxis bei der Anwendung von Techniken wie NER immer weiter entwickeln, können Betriebsteams ihre Aufmerksamkeit auf die Nutzung von Techniken richten, die sich als erfolgreich erwiesen haben, anstatt Modelle zu erstellen.

NER-Beispiel:
Benannte Entität: Wochentage
Liste: Sonntag, Montag, Dienstag, Mittwoch, Donnerstag, Freitag, Samstag
Abbildung 1. Die Erkennung benannter Entitäten bietet bei der Inferenz eine höhere Genauigkeit als der regelbasierte Musterabgleich.

3. Datengravitation ist real

Die Datengravitation ist eine grundlegende Kraft, die Entscheidungen darüber beeinflusst, ob die Datenverarbeitung näher am Entstehungsort der Daten platziert werden soll oder ob die Daten näher an den Ort verschoben werden sollen, an dem die Datenverarbeitung bereits bereitgestellt wird. Je größer das Datenvolumen, desto stärker ist die Gravitationskraft, was zu einer größeren, näher an der Datenbasis liegenden Rechenkapazität führt. Für das Training (Erstellen und Optimieren von Modellen) werden Daten aggregiert und näher an den Computer herangeführt. Beim Inferenzieren (unter Verwendung von Modellen) wird das Modell näher an die Stelle verschoben, an der die Eingabeaufforderung ausgegeben wird.

Wenn auf ein Modell zugegriffen wird, indem eine Kopie intern erstellt wird – statt durch Aufrufen der API einer von einem Drittanbieter gehosteten Instanz –, ist es sinnvoll, das Modell näher an die Eingabeaufforderung und/oder zusätzliche private Datensätze zu verschieben, die als Teil der Eingabeaufforderung vektorisiert werden. Wenn das Modell hingegen von einem Wenn Dritte ihre API über das Internet zugänglich machen, ändern sich das Modell und die Inferenzoperationen überhaupt nicht. In diesen Fällen können Inferenz- und private Datenvektoren mithilfe einer Rechenzentrums-Colocation-Verbindung oder durch den Versuch, die Hosting-Standorte dem Modellanbieter anzupassen, an einen Standort „in der Nähe des Netzwerks“ verschoben werden.

Das Bewusstsein für die Kräfte, die Daten und Berechnungen zusammenführen und auch trennen, trägt dazu bei, fundierte Entscheidungen zu treffen und das richtige Gleichgewicht zwischen Kosten und Leistung zu finden.

Abbildung 2. Netzwerknähe als Faktor der Datengravitation
Abbildung 2. Netzwerknähe als Faktor der Datengravitation

4. Ignorieren Sie Datensilos nicht, sondern gehen Sie damit um

Bei der GenAI-Verarbeitung ist es wichtiger denn je, Datensilos aufzubrechen, um die operative Datenanalyse zu vereinfachen und zu beschleunigen. Es sieht jedoch so aus, als würden Datensilos auf absehbare Zeit bestehen bleiben oder sich sogar noch weiter ausbreiten.

Die Frage ist eher, wie mit Datensilos umgegangen werden soll und welche Technologieauswahl getroffen werden soll. Beim Zugriff auf an mehreren Orten gespeicherte Daten haben Sie die Wahl zwischen dem Kopieren und Verschieben der Daten oder der Implementierung einer logischen Datenschicht, die föderierte Abfragen verwendet, ohne die Daten zu verschieben. Unabhängig davon, welche Wahl Sie treffen, hilft Ihnen das Erkennen der vorhandenen Streaming-Datenquellen und das Auswerten betrieblicher Anwendungsfälle hinsichtlich Zeit-/Datenaktualitätsbeschränkungen bei der Auswahl der erforderlichen Elemente Ihres Datentechnologie-Stacks, z. B. Streaming-Engines, Abfrage-Engines, Datenformate und Kataloge. Durch die Technologieauswahl können Datenteams die effektivsten und benutzerfreundlichsten Technologien auswählen und gleichzeitig Leistung und Kosten in Einklang bringen. Im Idealfall reift die Datenpraxis einer Organisation mit der Zeit, wobei der Organisation stets die Flexibilität bleibt, zu wählen, was in einem bestimmten Reifegrad am besten funktioniert.

5. Automatisierung ist ein Freund – fürchten Sie sich nicht davor

Wenn Lösungen Automatisierung hinzufügen, werden sie skaliert, indem sie implizites Wissen von Experten für Datenschutz und SecOps in eine wiederholbare, AIOps-fähige Praxis umwandeln, die von Maschinen ausgeführt werden kann. Erst dann haben die Daten-, Sicherheits- und Datenschutzteams Zeit, weitere Informationen hinzuzufügen. Durch die Intelligenz lässt sich die Wirksamkeit von Richtlinien verbessern, indem genauer definiert wird, wie bestimmte Daten von wem, wie lange und zu welchem Zweck verwendet werden dürfen. Gleichzeitig lässt sich nachverfolgen, wo die Daten gespeichert sind, welche Kopien erstellt und mit wem sie geteilt werden. Dadurch bleibt Zeit für die strategische Planung, die Bewertung neuer Technologien und die Kommunikation mit dem Unternehmen, um die Richtlinien zum Datenzugriff zu verfeinern und Ausnahmen zu genehmigen.

Geschwindigkeit, Skalierbarkeit und Automatisierung sind Merkmale einer ausgereiften AIOps-Praxis, die zu besseren Ergebnissen, schnelleren Entscheidungen und optimiertem Humankapital führen. GenAI öffnet Türen, die die Technologie bisher nicht öffnen konnte. Die fünf oben genannten Erkenntnisse bieten einige Wegweiser für IT-, Sicherheits- und Datenschutzoperationen, die diese Teams berücksichtigen sollten, wenn sie GenAI in ihre AIOps implementieren. KI-Modelle, die Nähe der Rechenleistung zu Betriebsdaten, Daten und Automatisierung sind die Kernbestandteile der neuen AIOps-Plattform. In dieser umfassenden Lernumgebung können Organisationen die Kultur und Praktiken des Technologiebetriebs für die aktuelle und zukünftige Generation aufbauen.

Um tiefer in die Auswirkungen generativer KI auf Daten einzutauchen, lesen Sie den neuesten Digital Enterprise Maturity Index -Bericht von F5.