BLOG

Pris par nos propres pétards : Données volumineuses et sales

Miniature de Lori MacVittie
Lori MacVittie
Publié le 21 août 2017

Les mégadonnées. Des pétaoctets générés chaque heure pour des millions de capteurs et de moniteurs intégrés dans des objets tout au long de la chaîne de valeur commerciale. De la fabrication à la livraison, du point de vente aux consommateurs, les données sont générées en quantités sans précédent.

Ces données, à elles seules, n’ont aucune signification. Les données elles-mêmes sont une collection de 1 et de 0 dans des formations spécifiques qui, lorsqu'elles sont interprétées par une application, deviennent des informations. L’information ne devient utile que lorsqu’elle est analysée et n’a de valeur que lorsqu’elle est exploitée.

Les gens ne peuvent pas analyser efficacement les données générées aujourd’hui, sans parler de celles qui seront générées dans l’heure, le jour ou la semaine à venir. Et pourtant, les décisions commerciales doivent de plus en plus être prises en temps quasi réel. Pour y parvenir, il faut des ordinateurs et des systèmes formés pour reconnaître les signaux parmi les énormes quantités de bruit collectés chaque jour.

Ce n’est pas une simple conjecture. Dans « Machine Learning : « Le nouveau terrain d’essai pour l’avantage concurrentiel » – une enquête menée par MIT Technology Review Custom et Google Cloud – plus de 60 % des répondants « ont déjà mis en œuvre des stratégies de ML [Machine Learning], et près d’un tiers d’entre eux se considèrent comme ayant atteint un stade de maturité avec leurs initiatives. » La raison derrière leur investissement non négligeable dans cette technologie naissante est l’avantage concurrentiel. « Selon les personnes interrogées, l’un des principaux avantages du ML est la possibilité d’obtenir un avantage concurrentiel, et 26 % des personnes qui mettent actuellement en œuvre le ML estiment avoir déjà atteint cet objectif. »

Les bénéfices attendus devraient être stupéfiants.

Pour une entreprise typique du Fortune 1000, une augmentation de seulement 10 % de l’accessibilité aux données se traduira par un revenu net supplémentaire de plus de 65 millions de dollars.

Les détaillants qui exploitent toute la puissance du Big Data pourraient augmenter leurs marges d’exploitation jusqu’à 60 %.

Tout va bien jusqu'à présent. Nous utilisons les données pour prendre des décisions qui permettent aux entreprises de prendre les devants et de se développer.

Le danger réside dans le fait de ne pas reconnaître que toute dépendance comporte des risques. Si je dépends d’une voiture pour me rendre à l’épicerie (parce qu’il n’existe pas de transports en commun là où je vis), il y a un risque qu’il arrive quelque chose à cette voiture. Beaucoup de risques. Si mon entreprise dépend du big data pour prendre des décisions (potentiellement pour moi, si les prédictions des experts doivent être prises au pied de la lettre), alors il y a un risque que quelque chose arrive à ces données.

Je ne parle pas ici de la perte évidente des données ni même de la corruption de ces données. Je parle d’une menace plus insidieuse qui vient de la confiance que nous accordons à la véracité de ces données.

Afin de prendre des décisions sur n’importe quelle donnée – que ce soit dans notre vie personnelle ou professionnelle – nous devons d’abord avoir confiance en l’exactitude de ces données.

Données volumineuses et sales

Les données sales ne sont pas une nouveauté. J’avoue que j’ai parfois falsifié mes informations personnelles lorsqu’on me les demandait pour accéder à un article ou à une ressource sur Internet. Mais les nouveaux flux de données ne sont pas nécessairement menacés par ce type de corruption inoffensive. Ils sont menacés par une corruption délibérée de la part d’acteurs malveillants déterminés à faire dérailler votre entreprise.

Parce que nous prenons des décisions basées sur des données et que nous avons tendance à les remettre en question uniquement lorsque des valeurs aberrantes évidentes se présentent, nous sommes presque aveugles à la menace d’une corruption progressive. À l’instar du cliché désormais répandu consistant à récupérer quelques centimes lors des transactions bancaires, le changement subtil dans les données peut passer inaperçu. L’augmentation progressive de la demande pour le produit X sur un marché peut être considérée comme le succès des efforts de marketing ou de promotion. La macroéconomie peut souvent expliquer une baisse soudaine de la demande pour le produit Y chez d’autres. Ma capacité à avoir un impact sur votre entreprise est significative si j’ai la patience et la détermination de salir les données sur lesquelles vous prenez des décisions en matière de fabrication ou de distribution.

Quelle importance ? Selon Ovum Research, une mauvaise qualité des données entraîne une perte d'environ 30 % des revenus. Analytics Week a compilé une liste fascinante de faits liés au Big Data ayant des conséquences similaires à celles des mauvaises données, notamment :

Des données de mauvaise qualité peuvent coûter aux entreprises 20 à 35 % de leur chiffre d’affaires d’exploitation.

Les données erronées ou de mauvaise qualité coûtent aux entreprises américaines 600 milliards de dollars par an.

Cela semble improbable ? Le scraping du Web pour recueillir des renseignements dans le cadre d’efforts d’espionnage d’entreprise est une réalité, et des équipes sont dédiées à l’arrêter. L’utilisation d’API rend ces efforts encore plus faciles et pires – parfois en temps réel. Ainsi, penser que la possibilité que quelqu’un introduise intentionnellement de mauvaises données dans votre flux ne se produira pas revient à ignorer volontairement la réalité selon laquelle les mauvais acteurs ont souvent (généralement) deux longueurs d’avance sur nous.

données redlock-csi

Nos pratiques de sécurité – en particulier dans le cloud, où une grande partie des données volumineuses sont censées résider – amplifient cette menace. Un livre blanc de TDWI sponsorisé par Information Builders présente de nombreux autres exemples du coût des données sales. Bien que la plupart d’entre eux concernent des problèmes typiques de données sales découlant de l’intégration de données dues à des acquisitions ou à des informations falsifiées typiques générées par les clients, les modèles de coûts sont inestimables pour comprendre la menace qui pèse sur les entreprises en se fondant sur des données fiables qui peuvent être corrompues – et ce que vous pouvez faire à ce sujet.

Le recours aux configurations par défaut a été la cause de plusieurs violations rien que cette année. Vous vous souvenez de la débâcle de MongoDB en janvier ? Celui dans lequel les configurations par défaut laissaient les bases de données largement ouvertes à quiconque sur Internet pourrait être intéressé par elles ? Ou que dire de l’ étude RedLock CSI qui a révélé que 285 instances de consoles d’administration de Kubernetes étaient complètement ouvertes. Aucune information d'identification requise. Le même rapport a révélé que 31 % des bases de données non chiffrées dans le cloud acceptaient des connexions entrantes en provenance d’Internet. Directement. Comme, rien entre moi et tes données.

Lorsque plus de 27 000 bases de données sont laissées exposées et accessibles via Internet en raison d’un manque d’effort pour les sécuriser, on peut facilement imaginer que les flux de données pourraient être facilement pollués. Lorsque des organisations suppriment délibérément les contrôles de sécurité par défaut des services de stockage cloud pour les laisser largement exposés à la découverte et à la corruption, cette notion d’acteurs malveillants insérant des données sales passe du possible au probable. Il incombe aux organisations qui s’appuient sur des données – ce qui est le cas de la quasi-totalité d’entre elles aujourd’hui – de veiller non seulement à la manière dont elles sécurisent ces données, mais également à la manière dont elles vérifient leur exactitude.

La sécurité dans l’avenir des entreprises axées sur les données ne se limite pas à la simple protection contre l’exfiltration. Elle doit également prendre en compte la menace bien réelle d’infiltration – et la manière de la combattre.