BLOG

L'importance de l'étalonnage des mesures de santé des application

Miniature de Lori MacVittie
Lori MacVittie
Publié le 11 mai 2020

Récemment, je me suis rappelé de l’importance de calibrer les mesures lorsque je suis revenu dans le domaine de l’entretien des récifs. Tout comme les changements rapides dans le paysage des application , l’entretien des récifs a radicalement changé au cours des cinq dernières années. 

Aujourd'hui, je suis équipé de moniteurs et de sondes connectés qui me suivent automatiquement et m'alertent si quelque chose ne va pas. Les tableaux de bord Web et mobiles permettent la surveillance, la programmation et une vue rapide de la santé de mon réservoir et de l'état de la myriade d'appareils qui le maintiennent en fonctionnement. 

Les lecteurs attentifs remarqueront que le pH semble être « en dessous du minimum ». Ne vous inquiétez pas, tout va bien. Vous voyez que la sonde (capteur) n'est pas correctement calibrée. C’est un problème courant : l’étalonnage des sondes est un processus semé d’échecs. Pour le moment, je sais que la sonde est calibrée bas et j'ajuste automatiquement la mesure en fonction de cette connaissance. 

Tout comme la santé d’un aquarium récifal, la santé des applications nécessite une attention particulière portée aux indicateurs clés. Les écarts, en particulier les fluctuations importantes, peuvent indiquer un problème. Le réglage manuel des métriques n’est pas un processus que vous souhaitez imiter lorsqu’il s’agit applications. Les ajustements manuels peuvent fonctionner pour une application ou même deux, mais l’organisation moyenne possède entre 100 et 200 applications dans son portefeuille numérique. Vous avez besoin de mesures précises calibrées par rapport aux habitudes de santé habituelles.

Comme pour la plupart des mesures de réseau et application , cela signifie prélever des échantillons pendant une période donnée et apprendre les « hauts » et les « bas ». Des seuils peuvent ensuite être utilisés pour déterminer un comportement anormal.

Le problème n’est pas le principe, mais plutôt l’exécution.

Premièrement, nous nous concentrons généralement sur un seul point de mesure : l’ application. Il est intéressant de noter que la santé d’un aquarium récifal nécessite de mesurer la salinité et le pH ainsi que la température, car ces deux valeurs sont affectées par la température. La mesure de la santé des application est à peu près la même : elle est affectée par d’autres mesures, telles que les performances et la charge du réseau. Malheureusement, la plupart des organisations n’adoptent pas nécessairement une vision globale de la santé des application . L' application elle-même peut être correcte, mais l'expérience client peut être épouvantable en raison d'un appareil connecté ou d'un réseau peu performant. 

Nous devons élargir notre vision de la santé des application en élargissant ce que nous mesurons. De plus, nous devons calibrer des mesures supplémentaires pour nous assurer de pouvoir identifier ce qui est typique et ce qui ne l’est pas. Parce que « ce qui n’est pas typique » peut être révélateur d’un problème ou, pire, d’une attaque.

Deuxièmement, le défi de l’échelle découle de la nécessité d’étalonner sur plusieurs points chaque application que nous devons surveiller ( spoiler : ce sont toutes ces applications ). Nous ne pouvons pas nous attendre à ce que les opérateurs calibrent manuellement autant de points de données. Ce n'est pas humainement possible.

C’est là qu’interviennent les machines.

Analyse avancée

L’analyse avancée et l’apprentissage automatique sont l’une des réponses au problème d’échelle. Les machines peuvent traiter, et traitent, de vastes volumes de télémétrie à des rythmes importants. Ils peuvent ingérer, normaliser et analyser des modèles et des relations dans des quantités de données que nous, en tant qu’êtres humains, ne pouvons tout simplement pas gérer. De cette manière, l’apprentissage automatique offre la possibilité de calibrer la « normale » sur une gamme de points de données connexes et de détecter immédiatement les modèles déviants qui indiquent un problème.

Il est assez facile de corréler les problèmes de performances d’une application à une augmentation des connexions le lundi matin. Ce qui n’est pas facile, c’est de reconnaître que Bob ne se connecte généralement pas avant le lundi après-midi. Et pourtant, aujourd’hui, il l’est. C’est une anomalie qui n’est pas facilement reconnaissable par les opérateurs humains car nous n’avons pas ce niveau de visibilité. Avec suffisamment de télémétrie émise par l' application, le client et les services application qui composent l'expérience code-client, les analyses avancées peuvent détecter cette anomalie. Il peut également le signaler ou envoyer un nouveau flux commercial qui vérifie que Bob essaie réellement de se connecter.

Cette capacité est similaire à ce que font de nombreuses applications aujourd’hui au niveau de l’appareil. De nombreux processus numériques utilisent des codes de vérification et nous demandent de prouver que nous sommes humains en identifiant toutes les voitures dans une image floue. Mais ce sont les détails de l’appareil qui déclenchent le nouveau flux commercial, et non le comportement de connexion à une heure inhabituelle de la journée. À l’avenir, nous devrons pouvoir déclencher des flux basés sur les deux, surtout si nous continuons à prendre en charge une main-d’œuvre distribuée.

L’étalonnage devient donc une partie essentielle du processus. Et l'étalonnage est réalisé en prenant (beaucoup de) mesures et en obtenant une valeur « normale ». Il s’agit là aussi d’un processus qui représente un défi à l’échelle humaine et qui nécessite que les machines ingèrent et analysent des quantités importantes de télémétrie.

L'analyse avancée permettra à terme l'observabilité et donnera naissance à de nouveaux services capables de découvrir des informations cachées sur les application (DEM), de permettre une orchestration plus intelligente des services d'application (AI Ops) et de produire une valeur commerciale jusqu'alors indétectable (AI-Enhanced Services).

Pour ce faire, nous devons générer de grandes quantités de télémétrie afin de pouvoir calibrer le comportement « normal » des applications, des utilisateurs et de tout ce qui se trouve dans le chemin des données intermédiaire.