Als ich mich kürzlich wieder mit der Riffpflege beschäftigte, wurde ich an die Bedeutung der Kalibrierung von Messungen erinnert. Ebenso wie sich die Application rasant verändert, hat sich auch die Riffaquaristik in den letzten fünf Jahren dramatisch verändert.
Heute verfüge ich über angeschlossene Monitore und Sonden, die mich automatisch verfolgen und warnen, wenn etwas nicht stimmt. Web- und mobile Dashboards ermöglichen die Überwachung, Programmierung und einen schnellen Überblick über den Zustand meines Tanks und den Status der unzähligen Geräte, die ihn am Laufen halten.
Aufmerksamen Lesern wird auffallen, dass der PH-Wert „unter dem Minimum“ zu liegen scheint. Kein Grund zur Sorge, alles ist gut. Sie sehen, dass die Sonde (der Sensor) nicht richtig kalibriert ist. Dies ist ein weit verbreitetes Problem; das Kalibrieren von Sonden ist ein Prozess, der mit Fehlern behaftet ist. Im Moment weiß ich, dass die Sonde zu niedrig kalibriert ist, und passe die Messung entsprechend automatisch an.
Wie bei der Gesundheit eines Riffaquariums ist auch bei der Gesundheit von Applications eine sorgfältige Beachtung der wichtigsten Kennzahlen erforderlich. Abweichungen, insbesondere starke Schwankungen, können auf ein Problem hinweisen. Die manuelle Anpassung von Metriken ist kein Prozess, den Sie bei Applications nachahmen möchten. Manuelle Anpassungen funktionieren möglicherweise für eine oder sogar zwei Application , aber ein durchschnittliches Unternehmen hat zwischen 100 und 200 Applications in seinem digitalen Portfolio. Sie benötigen genaue Messungen, die auf typische Gesundheitsmuster abgestimmt sind.
Wie bei den meisten Netzwerk- und Application bedeutet dies, dass Sie über einen bestimmten Zeitraum hinweg Stichproben nehmen und die „Höhen“ und „Tiefen“ kennen. Mithilfe von Schwellenwerten kann dann anormales Verhalten festgestellt werden.
Es geht nicht um das Prinzip, sondern um die Umsetzung.
Erstens konzentrieren wir uns im Allgemeinen nur auf einen Messpunkt: die Application. Interessanterweise erfordert die Gesundheit eines Riffaquariums die Messung des Salzgehalts und des pH-Werts sowie der Temperatur, da beide Werte von der Temperatur beeinflusst werden. Die Messung der Application erfolgt auf ähnliche Weise, wird aber durch andere Kennzahlen beeinflusst, beispielsweise die Netzwerkleistung und -auslastung. Leider betrachten die meisten Organisationen die Application nicht unbedingt ganzheitlich. Die Application selbst ist möglicherweise einwandfrei, das Kundenerlebnis kann jedoch aufgrund der schlechten Leistung eines verbundenen Geräts oder Netzwerks miserabel sein.
Wir müssen unsere Sicht auf die Application erweitern, indem wir den Umfang unserer Messungen erweitern. Darüber hinaus müssen wir zusätzliche Messungen kalibrieren, um sicherzustellen, dass wir erkennen können, was typisch ist und was nicht. Denn „was nicht typisch ist“, kann auf ein Problem oder schlimmer noch auf einen Anfall hinweisen.
Zweitens ergibt sich die Skalierungsherausforderung aus der Notwendigkeit, für jede Application, die wir überwachen müssen ( Spoiler: das sind alle ), eine Kalibrierung über mehrere Punkte hinweg vorzunehmen. Wir können von den Bedienern nicht erwarten, so viele Datenpunkte manuell zu kalibrieren. Das ist menschlich nicht möglich.
Hier kommen Maschinen ins Spiel.
Erweiterte Analytik und maschinelles Lernen sind eine der Antworten auf das Skalierungsproblem. Maschinen können große Mengen an Telemetriedaten mit hoher Geschwindigkeit verarbeiten und tun dies auch. Sie können Muster und Beziehungen in Datenmengen aufnehmen, normalisieren und analysieren, die wir als Menschen einfach nicht bewältigen können. Auf diese Weise bietet maschinelles Lernen die Möglichkeit, den „Normalzustand“ über eine Reihe verwandter Datenpunkte hinweg zu kalibrieren und abweichende Muster, die auf ein Problem hinweisen, sofort zu erkennen.
Es lässt sich recht einfach feststellen, dass Leistungsprobleme einer Application mit einem Anstieg der Anmeldungen am Montagmorgen zusammenhängen. Was nicht einfach ist, ist zu erkennen, dass Bob sich normalerweise erst am Montagnachmittag anmeldet. Und doch ist er es heute. Dabei handelt es sich um eine Anomalie, die von menschlichen Bedienern nicht ohne weiteres erkannt werden kann, da uns diese Sichtbarkeit fehlt. Wenn von der Application, dem Client und den Application , die das Code-to-Customer-Erlebnis ausmachen, genügend Telemetriedaten gesendet werden, kann diese Anomalie durch erweiterte Analysen erkannt werden. Es kann auch markiert werden oder ein neuer Geschäftsablauf angestoßen werden, der überprüft, ob Bob tatsächlich versucht, sich anzumelden.
Diese Funktion entspricht der Funktion vieler heutiger Applications auf Geräteebene. Viele digitale Prozesse senden Verifizierungscodes aus und verlangen von uns, dass wir unsere Menschlichkeit beweisen, indem wir alle Autos in einem verschwommenen Bild identifizieren. Aber es sind die Gerätedetails , die den neuen Geschäftsfluss auslösen, und nicht das Anmeldeverhalten zu einer ungewöhnlichen Tageszeit. In Zukunft müssen wir in der Lage sein, auf beiden Grundlagen Flows auszulösen, insbesondere wenn wir auch weiterhin eine verteilte Belegschaft unterstützen.
Daher ist die Kalibrierung ein wichtiger Teil des Prozesses. Und die Kalibrierung wird dadurch erreicht, dass man (viele) Messungen vornimmt und den „Normalwert“ ermittelt. Auch dieser Prozess stellt eine Herausforderung für den menschlichen Maßstab dar und erfordert Maschinen, die große Mengen an Telemetriedaten verarbeiten und analysieren.
Erweiterte Analysen werden letztendlich die Beobachtbarkeit ermöglichen und neue Dienste hervorbringen, die in der Lage sind, verborgene Application aufzudecken (DEM), eine intelligentere Orchestrierung von App-Diensten zu ermöglichen (AI Ops) und bisher nicht erkennbaren Geschäftswert zu erzeugen (AI-Enhanced Services).
Dazu müssen wir umfangreiche Telemetriedaten generieren, damit wir das „normale“ Verhalten für Applications, Benutzer und alles dazwischen im Datenpfad kalibrieren können.