BLOG | BUREAU DU CTO

Apache Arrow et OpenTelemetry : Comment l’open source favorise l’observabilité

Miniature de Lori MacVittie
Lori MacVittie
Publié le 19 avril 2023

Il existe des dizaines de milliards de statistiques sur l’omniprésence des logiciel libre dans les entreprises de tous les secteurs. Les applications sont composées à plus de 80 % de composants open source, et Internet fonctionne essentiellement sur le logiciel libre NGINX .

Mais il existe également de nombreuses normes ouvertes. Normes développées et peaufinées à l'aide d'une approche open source et communautaire qui produit des écosystèmes incroyables de produits, de projets et d'infrastructures de soutien.

OpenTelemetry est l’un de ces efforts et est devenu la norme pour la génération, l’ingestion et le traitement des données opérationnelles, également appelées télémétrie . Près d'un tiers (32 %) des répondants au rapport Observability Innovation Report 2023 indiquent que « le support d'OpenTelemetry est nécessaire et 50 % disent qu'il est très important dans les produits des fournisseurs. Un peu plus d'un tiers (36 %) des répondants utilisent OpenTelemetry au sein de leur organisation.

La standardisation de la télémétrie est essentielle car l’observabilité repose sur des points de données provenant de l’ensemble de la pile informatique. Cela signifie des mesures de réseau, des journaux de serveur et des traces, tous provenant de types d’infrastructures et de systèmes très différents. Il n’existe pas de source unique de vérité, car il y a tout simplement trop d’éléments mobiles, même dans une application simple, pour garantir que vous pouvez collecter toutes les données dont vous avez besoin pour observer l’état de l’application à un moment donné. La normalisation de la manière dont la télémétrie est générée est un moyen de normaliser les signaux numériques et de garantir que l’analyse peut exploiter tous les points de données appropriés pour fournir des informations précises et exploitables.

Mais même la standardisation de la télémétrie ne résout pas tous les défis associés à l’atteinte du Saint Graal de l’observabilité full-stack.

L’un des gros problèmes liés au traitement des données opérationnelles est leur volume. Les signaux numériques sur lesquels les organisations s’appuient pour se tenir informées des problèmes potentiels de performances ou des tentatives d’attaques sont générés plus rapidement et plus furieusement que tout autre type de données. Nous le savons de près et personnellement car chez F5, nous avons adopté OpenTelemetry comme norme dans l’ensemble de notre portefeuille. La nature et le rôle de nos produits, comme BIG-IP et NGINX, dans la fourniture et la sécurisation applications et de services numériques signifient que des volumes importants de données telles que des métriques et des journaux sont générés pour diverses raisons. Le transport et le traitement de ces données représentent une part importante du coût associé aux pipelines de télémétrie.

Pour relever ce défi, l'ingénieur distingué Laurent Quérel s'est impliqué dans Apache Arrow et a commencé à travailler avec le projet OpenTelemetry pour augmenter son efficacité avec des volumes de télémétrie élevés.

Nos résultats de référence montrent qu’Apache Arrow offre des avantages significatifs pour le transport et le traitement des données de télémétrie, en particulier lorsqu’elles peuvent être regroupées en lots de plusieurs centaines d’entités ou plus. L'organisation en colonnes des données améliore la compressibilité, et cette disposition de la mémoire améliore considérablement la vitesse de traitement en optimisant l'utilisation de différents niveaux de cache et instructions SIMD. De plus, l’écosystème Arrow constitue un excellent complément à OpenTelemetry, améliorant son intégration avec les moteurs de requête, les pipelines de traitement de flux et les formats de fichiers d’analyse spécialisés.

Vous pouvez en savoir plus sur Apache Arrow et le travail de Laurent dans le premier de deux articles sur nos expériences avec la technologie sur le site Apache Arrow.