BLOG | BUREAU DU CTO

La plupart des informations manquantes sont dues à des biais dans les données

Miniature de Lori MacVittie
Lori MacVittie
Publié le 26 juillet 2021


Sur cent personnes, seulement cinq parviennent à obtenir les informations dont elles ont besoin à partir de la myriade d’outils de surveillance qu’elles utilisent pour suivre les performances, la disponibilité et la sécurité de leurs actifs numériques.

Les quatre-vingt-quinze autres ? Ils pourraient tout aussi bien regarder des diagrammes de Venn mignons mais inefficaces.

diagramme de Venn

L’une des causes du manque d’informations n’est pas le manque d’outils ou même le manque de données ; c’est le biais continu dans les données.

Biais continu des données

Le biais des données est causé par une curation opiniâtre au sein d’un système. La curation avisée est le résultat de décisions prises concernant tout, depuis les données collectées et les systèmes à partir desquels, jusqu'à la manière dont les visualisations sont affichées sur les tableaux de bord.

L’une des sources les plus importantes de biais de données est l’héritage des systèmes basés sur des agents, qui nécessitent le déploiement de logiciels supplémentaires sur tout système à partir duquel vous souhaitez collecter des données. Les agents sont généralement associés à une plateforme d’analyse et, dans le passé, le prix de ces produits incluait souvent le coût des agents. Bien sûr, cette offre est réduite pour les déploiements à grande échelle, mais elle reste néanmoins coûteuse.

Le coût de déploiement et de gestion des agents introduisait un biais dans les données, car il limitait les systèmes à partir desquels vous pouviez collecter des données. Les opinions, expérimentées ou non, concernant l’intérêt de surveiller une application ou un système donné ont souvent motivé la décision de déploiement.

Le volume de données générées est également une source de biais continu, car il conduit à des décisions fondées sur l’opinion de la valeur de points de données spécifiques. Avez-vous vraiment besoin de toutes ces mesures, ou pouvons-nous simplement nous limiter à trois ou quatre ? La sélection arbitraire des indicateurs signifie qu'il n'existe aucun moyen de valider les changements ou les évolutions des données dans leur ensemble. Ces changements ou évolutions pourraient être le signe d’un problème potentiel (ou d’un risque), mais ils ne sont pas pris en compte car les données ont été jugées insignifiantes.

Enfin, les décisions du tableau de bord concernant la visualisation biaisent davantage l’interprétation et sont souvent basées sur des compétences et des expériences qui peuvent ne pas être partagées avec d’autres personnes qui utilisent le tableau de bord. Même le choix du graphique peut introduire un biais. Cela est particulièrement vrai pour les mesures opérationnelles basées sur des séries chronologiques telles que les performances et la disponibilité.

deux cartes

Les graphiques à barres sont souvent utilisés pour représenter des données de séries chronologiques, mais n’ont pas autant d’impact que les graphiques linéaires. Un graphique à barres nous oblige à comparer les hauteurs des barres pour comprendre les changements dans le temps de réponse plutôt que de laisser la forme de la ligne nous montrer ce qui se passe. Ces décisions simples peuvent avoir un impact profond sur les opérateurs qui s’appuient sur la visualisation pour offrir un aperçu de l’état de fonctionnement d’un système.

Toutes ces décisions introduisent continuellement des biais dans les données et ont un impact sur notre capacité à les interpréter – et donc à mieux comprendre ce qu’elles signifient réellement.

Éliminer les biais de données

Si nous voulons prendre de meilleures décisions dans un monde numérique par défaut, nous aurons besoin de meilleures données, ce qui signifie éliminer autant de biais de données que possible.

C’est l’une des raisons pour lesquelles OpenTelemetry est si prometteur. La normalisation de la manière dont la télémétrie est générée et ingérée à l’aide d’agents open source (et donc à moindre coût, voire gratuits) contribuera grandement à éliminer l’une des causes profondes du biais des données : le budget informatique. En vous assurant de pouvoir collecter la télémétrie de chaque système plutôt que de seulement quelques-uns jugés « dignes d'intérêt », vous éliminez une source importante de biais dans vos données. C'est pourquoi notre vision de l'edge computing inclut la notion d'intégration de la génération de télémétrie dans la plateforme elle-même, afin qu'elle soit toujours disponible, partout.

Le lac de données en tant que service peut également être un moyen efficace de remédier au biais introduit par la conservation en raison du volume et du coût de stockage au fil du temps. En externalisant l’échelle et la capacité, les organisations peuvent ingérer plus librement davantage de télémétrie, ce qui facilite la découverte des anomalies et des modèles qui ont un impact sur les performances et bien plus encore. Au cours des cinq dernières années, nous avons vu un menu croissant de ces services, souvent regroupés dans la catégorie XaaS, qui continue de consommer le budget informatique à un rythme croissant. Deloitte a noté dans un rapport sur XaaS cette année que près de la moitié des organisations alloueront au moins la moitié de leurs dépenses informatiques à XaaS.

Enfin, en passant des visualisations aux insights, le problème de biais dans la diffusion des données opérationnelles dans les tableaux de bord peut être résolu. Plutôt que d’afficher simplement des instantanés de points de données dans le temps, les insights fournissent des informations basées sur des modèles et des relations découverts dans les données. De plus, les informations recueillies peuvent éliminer les exercices d’incendie inutiles causés par la dépendance aux mesures binaires. Les systèmes modernes sont conçus pour tomber en panne et récupérer automatiquement. Être averti chaque fois que cela se produit peut provoquer une fatigue liée aux alertes qui réduit la productivité. La capacité d’analyser la télémétrie dans le contexte d’un flux utilisateur complet permet de comprendre quand un composant défaillant nécessite une intervention et quand ce n’est pas le cas. Passer d’un mode qui repose sur l’interprétation de plusieurs visualisations à l’exploitation d’informations complètes peut éliminer une partie des biais inhérents à la visualisation.

À mesure que les entreprises se dirigent vers un modèle numérique par défaut, elles s’appuient nécessairement de plus en plus sur les données. L’élimination des biais dans ces données sera une étape cruciale pour garantir que les décisions basées sur ces données conduiront au meilleur résultat possible pour les clients et l’entreprise.