Große Daten. Stündlich werden Petabyte für Millionen von Sensoren und Monitoren generiert, die in Geräten entlang der gesamten Wertschöpfungskette eines Unternehmens eingebettet sind. Von der Herstellung bis zur Auslieferung, vom POS bis zum Verbraucher werden Daten in beispiellosen Mengen generiert.
Diese Daten sind für sich genommen bedeutungslos. Daten selbst sind eine Sammlung von Einsen und Nullen in bestimmten Formationen, die bei der Interpretation durch eine App zu Informationen werden. Informationen werden erst dann nützlich, wenn sie analysiert werden, und erst dann wertvoll , wenn auf ihrer Grundlage gehandelt wird.
Menschen können die heute generierten Daten nicht effektiv analysieren, ganz zu schweigen von den Daten, die in der nächsten Stunde, am nächsten Tag oder in der nächsten Woche generiert werden. Und dennoch müssen Geschäftsentscheidungen zunehmend nahezu in Echtzeit getroffen werden. Um dies zu erreichen, sind Computer und Systeme erforderlich, die darauf trainiert sind, die Signale inmitten der riesigen Mengen an Lärm zu erkennen, die sich täglich ansammeln.
Dies ist nicht bloß eine Vermutung. In „ Maschinelles Lernen: Das neue Testgelände für Wettbewerbsvorteile “ – eine von MIT Technology Review Custom und Google Cloud durchgeführte Umfrage – über 60 % der Befragten „haben bereits ML-Strategien [Maschinelles Lernen] implementiert und fast ein Drittel ist der Ansicht, dass ihre Initiativen sich in einem ausgereiften Stadium befinden.“ Der Grund für ihre nicht unerhebliche Investition in diese junge Technologie ist der Wettbewerbsvorteil. „Ein wesentlicher Vorteil von ML liegt den Befragten zufolge darin, dass man sich einen Wettbewerbsvorteil verschaffen kann, und 26 Prozent der derzeitigen ML-Implementierer waren der Meinung, dass sie dieses Ziel bereits erreicht haben.“
Die Vorteile werden voraussichtlich enorm sein.
Für ein typisches Fortune 1000-Unternehmen führt bereits eine Verbesserung der Datenzugänglichkeit um 10 % zu einem zusätzlichen Nettogewinn von über 65 Millionen US-Dollar.
Einzelhändler, die das volle Potenzial von Big Data ausschöpfen, könnten ihre Betriebsmargen um bis zu 60 % steigern.
Soweit alles gut. Wir nutzen Daten, um Entscheidungen zu treffen, die es Unternehmen ermöglichen, die Führung zu übernehmen und zu wachsen.
Die Gefahr liegt darin, nicht zu erkennen, dass jede Abhängigkeit auch Risiken birgt. Wenn ich auf das Auto angewiesen bin, um zum Lebensmittelgeschäft zu gelangen (weil es dort, wo ich wohne, keine öffentlichen Verkehrsmittel gibt), besteht das Risiko, dass dem Auto etwas zustößt. Ein großes Risiko. Wenn mein Unternehmen für seine Entscheidungen auf Big Data angewiesen ist (was bei mir möglicherweise der Fall ist, wenn man die Vorhersagen der Experten für bare Münze nimmt), besteht das Risiko, dass mit diesen Daten etwas passiert.
Ich spreche jetzt nicht vom offensichtlichen Verlust oder gar der Beschädigung der Daten. Ich spreche von einer heimtückischeren Bedrohung, die von unserem Vertrauen in die Richtigkeit dieser Daten ausgeht.
Um Entscheidungen auf der Grundlage von Daten treffen zu können – sei es im Privat- oder Berufsleben – müssen wir zunächst auf die Genauigkeit dieser Daten vertrauen.
Schmutzige Daten sind nichts Neues. Ich muss gestehen, dass ich mich hin und wieder der Fälschung meiner persönlichen Daten schuldig gemacht habe, wenn ich aufgefordert werde, auf einen Artikel oder eine Ressource im Internet zuzugreifen. Allerdings besteht für die neuen Datenströme nicht unbedingt die Gefahr einer derart harmlosen Beschädigung. Sie sind der Gefahr gezielter Korruption durch böswillige Akteure ausgesetzt, die entschlossen sind, Ihr Unternehmen aus der Bahn zu werfen.
Da wir unsere Entscheidungen auf der Grundlage von Daten treffen und diese nur dann in Frage stellen, wenn es offensichtliche Ausreißer gibt, sind wir gegenüber der Gefahr einer schleichenden Korruption nahezu blind. Wie bei dem mittlerweile zum Klischee gewordenen Klischee, bei Banktransaktionen ein paar Cent abzuzweigen, kann die subtile Verschiebung der Daten unbemerkt bleiben. Eine schrittweise Steigerung der Nachfrage nach Produkt X in einem Markt kann als Erfolg der Marketing- oder Werbemaßnahmen angesehen werden. Ein plötzlicher Rückgang der Nachfrage nach Produkt Y in anderen Branchen lässt sich oft durch makroökonomische Überlegungen erklären. Ich kann erheblichen Einfluss auf Ihr Geschäft nehmen, wenn ich die Geduld und Entschlossenheit aufbringe, die Daten zu verändern, auf deren Grundlage Sie bei der Herstellung oder dem Vertrieb Entscheidungen treffen.
Wie bedeutsam? Laut Ovum Research führt eine schlechte Datenqualität zu Umsatzeinbußen von rund 30 %. Analytics Week hat eine faszinierende Liste von Big-Data-Fakten mit ähnlichen Folgen schlechter Daten zusammengestellt, darunter:
Schlechte Daten können Unternehmen 20–35 % ihres Betriebsertrags kosten.
Schlechte Daten oder eine mangelhafte Datenqualität kosten US-Unternehmen jährlich 600 Milliarden Dollar.
Scheint unwahrscheinlich? Web Scraping zum Sammeln von Informationen im Rahmen von Wirtschaftsspionage ist eine reale Praxis und es gibt Teams, die sich dafür einsetzen, es zu unterbinden. Die Verwendung von APIs macht diese Bemühungen noch einfacher und schwieriger – manchmal in Echtzeit. Zu glauben, dass es nicht möglich sei, dass jemand vorsätzlich falsche Daten in Ihren Stream einspeist, ist so, als würde man die Tatsache bewusst ignorieren, dass uns Betrüger oft (normalerweise) zwei Schritte voraus sind.
Unsere Sicherheitspraktiken – insbesondere in der Cloud, wo große Datenmengen gespeichert sein dürften – verstärken diese Bedrohung. Ein von Information Builders gesponsertes Whitepaper von TDWI enthält viele weitere Beispiele für die Kosten fehlerhafter Daten. Die meisten dieser Modelle beziehen sich auf typische Probleme mit fehlerhaften Daten, die durch die Integration von Daten infolge von Firmenübernahmen oder durch die typischen, vom Kunden generierten gefälschten Informationen entstehen. Die Kostenmodelle sind jedoch von unschätzbarem Wert, um die Geschäftsgefahr zu verstehen, die auf dem Vertrauen in möglicherweise fehlerhafte Daten beruht – und um zu erfahren, was Sie dagegen tun können.
Das Verlassen auf Standardkonfigurationen war allein in diesem Jahr die Ursache mehrerer Sicherheitsverletzungen. Erinnern Sie sich an das MongoDB-Debakel vom Januar ? Die Version, bei der die Datenbanken aufgrund der Standardkonfigurationen für jeden im Internet, der daran interessiert sein könnte, zugänglich sind? Oder wie wäre es mit der RedLock CSI-Studie , bei der 285 Instanzen der Verwaltungskonsolen von Kubernetes völlig geöffnet waren. Keine Anmeldeinformationen erforderlich. Derselbe Bericht ergab, dass 31 % der unverschlüsselten Datenbanken in der Cloud eingehende Verbindungen aus dem Internet akzeptierten. Direkt. Es gibt nichts zwischen mir und Ihren Daten.
Wenn über 27.000 Datenbanken ungeschützt und über das Internet zugänglich bleiben, weil keinerlei Maßnahmen zu ihrer Sicherung ergriffen wurden, kann man sich leicht vorstellen, dass Datenströme mit Leichtigkeit beschädigt werden könnten. Wenn Unternehmen die standardmäßigen Sicherheitskontrollen bei Cloud-Speicherdiensten absichtlich entfernen , um sie der Entdeckung und Manipulation auszusetzen, wird die Vorstellung, dass böswillige Akteure unsachgemäße Daten einschleusen, nicht mehr möglich, sondern wahrscheinlich. Organisationen, die auf Daten angewiesen sind – und das ist heutzutage so ziemlich jeder – müssen nicht nur darauf achten, wie sie diese Daten sichern, sondern auch, wie sie ihre Richtigkeit überprüfen.
Sicherheit bedeutet in datengesteuerten Unternehmen der Zukunft mehr als nur den Schutz vor Exfiltration; sie muss auch die sehr reale Bedrohung durch Infiltration berücksichtigen – und wie man ihr entgegentritt.