Beachten Sie, dass es keine Frage ist, ob eine Voreingenommenheit vorliegt. Es ist so. Die Frage ist vielmehr, wie es eingeführt wird und warum sich die IT dafür interessieren sollte.
Der Hype um KI könnte derzeit nicht größer sein. Das Interesse ist geweckt, die Nachfrage überwältigend und jeder versucht verzweifelt, die „Killer-App“ für seinen Markt zu finden.
Doch trotz des Hypes werden auch Bedenken geäußert – und das aus gutem Grund. Es ist relativ einfach, in die KI eine Voreingenommenheit einzuführen, und diese Voreingenommenheit gibt in manchen Kreisen Anlass zur Sorge.
Um zu verstehen, wie es zu Voreingenommenheit in der KI kommt, ist ein grundlegendes Verständnis davon erforderlich, wie KI-Modelle trainiert werden.
Je nachdem, wen Sie fragen und wie pedantisch derjenige sein möchte, erhalten Sie unterschiedliche Antworten auf die Frage, wie viele unterschiedliche Lernmethoden es gibt. Und tatsächlich sind die heute verwendeten Methoden, Algorithmen und Modelle sehr umfangreich und in vielen Fällen für diejenigen, die sich auf dem Gebiet nicht sehr gut auskennen, unverständlich. Es ist jedoch wichtig, auf einer hohen Ebene zu verstehen, wie Modelle trainiert werden, da dies letztendlich zu einer Verzerrung führt. Vor diesem Hintergrund gibt es drei grundlegende Möglichkeiten, KI-Modelle zu trainieren:
Okay, kommen wir nun zum eigentlichen Thema – wie es zu Voreingenommenheit in diesen Systemen kommen kann.
Die Antwort – und ich bin sicher, Sie haben es bereits herausgefunden – basiert auf der Tatsache, dass am Trainingsprozess häufig Menschen beteiligt sind.
Der einfachste Weg , überwachtes Lernen zu beeinflussen, besteht darin, die Daten durch falsche Kennzeichnung gewissermaßen zu vergiften. Wenn ich beispielsweise Tiere klassifiziere, kann die falsche Bezeichnung eines „Hundes“ als „Katze“ in ausreichend großem Umfang zu einer Fehlidentifizierung führen. Ein Risiko bei der Beschriftung besteht in der absichtlichen Falschbeschriftung mit dem Ziel, die Ausgabe zu verfälschen. Manche Fehlbezeichnungen sind lediglich das Produkt menschlicher Urteilskraft, etwa die Entscheidung, ob ein Panther eine Katze ist oder ob eine Katzenstatue als Katze gilt. Beim bestärkenden Lernen könnte die positive Belohnung der „falschen“ Antwort oder des „falschen“ Spielzugs möglicherweise zu einem System führen, das absichtlich die falschen Antworten gibt oder immer verliert.
Was für manche Leute eine attraktive Option sein könnte.
Dies hat offensichtlich Auswirkungen auf Konversations-KI (generative KI) wie ChatGPT, das laut der Website des Unternehmens durch „überwachtes Lernen und bestärkendes Lernen“ optimiert wurde, bei dem „menschliche Trainer zum Einsatz kamen, um die Leistung des Modells zu verbessern“. Wenn Sie zum Ranking der Antworten die Option „Nach oben“ oder „Nach unten“ wählen, können diese Daten möglicherweise zur weiteren Feinabstimmung des Modells verwendet werden. Ich gehe davon aus, dass Sie, lieber Leser, ein Mensch sind. Ergo besteht das Potenzial für eine weitere Verzerrung des Systems. Die Realität ist, dass die Antworten von ChatGPT oft völlig falsch sind. Um das System weiter zu trainieren und öfter die richtige Antwort zu liefern, ist Feedback notwendig.
Das ist zwar interessant, und wir könnten eine spannende Unterhaltung über die Möglichkeiten und Konsequenzen einer Manipulation dieser Systeme führen. Der wahre Grund, warum ich dieses Thema vertiefen wollte, ist jedoch, dass sich das Problem der Voreingenommenheit auch auf die Telemetrie erstreckt, also auf die Betriebsdaten, die wir alle nutzen möchten, um die Automatisierung der Systeme und Dienste voranzutreiben, die digitale Dienste bereitstellen und sichern.
Sie erinnern sich vielleicht, dass ich zum Thema Datenverzerrung im Zusammenhang mit Telemetrie und den Erkenntnissen geschrieben habe, die 98 % der Organisationen fehlen.
In den meisten Fällen, in denen es um die Analyse von Telemetriedaten geht, werden Modelle mit gekennzeichneten Daten trainiert. Eine Verzerrung kann in das System eingebracht werden durch (a) eine falsche Kennzeichnung der Daten, (b) eine unzureichende Datenvielfalt in einer bestimmten Kategorie oder (c) die Methode, die zur Einführung neuer Daten verwendet wird. Der Grund, warum die falsche Kennzeichnung von Daten problematisch ist, dürfte offensichtlich sein: In großen Mengen kann dies zu einer Fehlidentifizierung führen. Das Problem bei der Datenvielfalt besteht darin, dass Daten, die außerhalb eines so engen Trainingssatzes liegen, zwangsläufig falsch klassifiziert werden.
Ein klassisches Beispiel hierfür war ein KI-Modell, das darauf trainiert war, Panzer von anderen Transportmitteln zu unterscheiden. Es stellte sich heraus, dass alle Panzer bei Tageslicht fotografiert wurden, andere Fahrzeuge jedoch nicht. Das Ergebnis war, dass die KI beim Kampf Panzer gegen Nicht-Panzer hervorragende Arbeit leistete, aber tatsächlich eine Korrelation zwischen Tag und Nacht aufwies. Der Mangel an Vielfalt im Eingabesatz führte zu einer verzerrten Korrelation.
Auch wenn eine operative KI auf bestärkendes Lernen setzt, ist die fehlende Datenvielfalt problematisch, da dem System sozusagen alle „Variablen“ fehlen, um den „nächsten Schritt“ zu bestimmen.
Der Grund, warum eine KI möglicherweise nicht über einen vielfältigen Datensatz oder alle benötigten Variablen verfügt, ist, Sie haben es erraten, eine Datenverzerrung. Insbesondere die Datenverzerrung entsteht durch selektives Monitoring, bei dem nur *einige* Telemetriedaten zur Analyse herangezogen werden. Beispielsweise ist der Einfluss der DNS-Leistung auf das Benutzererlebnis gut bekannt. Wenn ein Modell jedoch darauf trainiert wird, die Anwendungsleistung ohne Telemetriedaten vom DNS zu analysieren, kann es behaupten, die Leistung sei völlig in Ordnung, selbst wenn ein Problem mit DNS vorliegt, weil es keine Ahnung davon hat, dass DNS in irgendeiner Weise mit der End-to-End-Leistung der App zusammenhängt. Wenn der „nächste Schritt“ darin besteht, jemanden auf eine Leistungsverschlechterung aufmerksam zu machen, wird das System aufgrund einer Verzerrung bei der Datenauswahl versagen.
Es wird Sie nicht überraschen, wenn ich Ihnen sage, dass unsere jährliche Umfrage ergeben hat, dass über die Hälfte aller Organisationen „fehlende Daten“ als größte Herausforderung bei der Gewinnung der benötigten Erkenntnisse angeben.
Selbst wenn Unternehmen KI voll und ganz für die Entscheidungsfindung im Betrieb nutzen würden, wäre dies eine Herausforderung. Ohne einen vielfältigen Datensatz, mit dem ein solches System trainiert werden kann, besteht die Möglichkeit einer Verzerrung.
Eine dritte Möglichkeit, wie eine Verzerrung auftreten kann, liegt in den Methoden, die zum Einbringen der Daten in das Modell verwendet werden. Das häufigste praktische Beispiel hierfür ist die Verwendung der Ergebnisse synthetischer Tests, um die durchschnittliche Leistung einer Anwendung zu bestimmen und dann das resultierende Modell zur Analyse des realen Datenverkehrs zu verwenden. Abhängig von der Vielzahl der Standorte, Geräte, Netzwerküberlastung usw., die den Datensatz aus den synthetischen Tests bilden, kann eine für echte Benutzer vollkommen akzeptable Leistung als Fehler eingestuft werden oder umgekehrt.
Es besteht die Gefahr, dass das Vertrauen in die Technologie erodiert und diese als Kraftmultiplikator fungiert und Unternehmen die Skalierbarkeit und Effizienz ermöglicht, die sie brauchen, um als digitales Unternehmen agieren zu können. Denn wenn die KI immer wieder die „falschen“ Antworten gibt oder die „falschen“ Lösungen vorschlägt, wird ihr niemand vertrauen.
Aus diesem Grund ist die Full-Stack-Beobachtbarkeit nicht nur wichtig, sondern eine der sechs wichtigsten technischen Fähigkeiten , die Unternehmen benötigen, um in die dritte Phase der digitalen Transformation zu gelangen: KI-gestütztes Geschäft.
Fehlende Daten – sei es aufgrund selektiver Überwachung oder eigennütziger Kuratierung von Messdaten – können die zur Entscheidungsfindung im Rahmen von KI-Modellen verwendeten Daten verzerren.
Eine sorgfältige Berücksichtigung der Datenquellen und -typen sowie eine umfassende Daten- und Beobachtungsstrategie tragen wesentlich dazu bei, Verzerrungen zu vermeiden und genauere – und vertrauenswürdigere – Ergebnisse zu erzielen.