BLOG | OFICINA DEL CTO

La mayoría de los datos que faltan se deben al sesgo de los datos.

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 26 de julio de 2021


De cada cien personas, solo cinco logran obtener la información que necesitan de las innumerables herramientas de monitoreo que utilizan para seguir el rendimiento, la disponibilidad y la seguridad de sus activos digitales.

¿Los otros noventa y cinco? También podrían estar mirando diagramas de Venn lindos pero ineficaces.

diagrama de Venn

Una de las causas de la falta de información no es la falta de herramientas ni la falta de datos, sino el sesgo continuo en los datos.

Sesgo continuo de datos

El sesgo de datos es causado por una curación basada en opiniones dentro de un sistema. La curación basada en opiniones es el resultado de decisiones tomadas con respecto a todo, desde qué datos se recopilan y desde qué sistemas hasta cómo se muestran las visualizaciones en los paneles.

Una de las fuentes más importantes de sesgo de datos es el legado de los sistemas basados en agentes, que requieren la implementación de software adicional en cualquier sistema desde el cual se deseen recopilar datos. Los agentes generalmente están asociados a una plataforma de análisis y, en el pasado, el precio de estos productos a menudo incluía el costo de los agentes. Por supuesto, se ofrece con descuento para grandes implementaciones, pero aun así es una propuesta costosa.

El costo de implementar y administrar agentes introdujo sesgo en los datos porque limitó los sistemas desde los cuales se podían recopilar datos. Las opiniones, experimentadas o no, sobre la conveniencia de monitorear una aplicação o un sistema determinados a menudo determinaron la decisión de implementación.

El volumen de datos generados también es una fuente de sesgo continuo porque conduce a decisiones basadas en la opinión sobre el valor de puntos de datos específicos. ¿Realmente necesitamos todas esas métricas o podemos limitarlas a tres o cuatro? La curación dogmática de las métricas significa que no hay forma de validar cambios o modificaciones en los datos en general. Esos cambios o desplazamientos podrían ser indicativos de un problema potencial (o riesgo), pero se pasan por alto porque los datos se consideran insignificantes.

Por último, las decisiones del tablero de control sobre la visualización generan más sesgos en la interpretación y a menudo se basan en habilidades y experiencias que tal vez no se compartan con otras personas que usan el tablero de control. Incluso la elección del gráfico puede introducir sesgos. Esto es particularmente cierto para las métricas operativas basadas en series temporales, como el rendimiento y el tiempo de actividad.

dos gráficos

Los gráficos de barras se utilizan a menudo para representar gráficamente datos de series temporales, pero no son tan impactantes como los gráficos de líneas. Un gráfico de barras nos obliga a comparar las alturas de las barras para comprender los cambios en el tiempo de respuesta en lugar de permitir que la forma de la línea nos muestre lo que está sucediendo. Estas decisiones simples pueden tener un impacto profundo en los operadores que confían en la visualización para obtener información sobre el estado operativo de un sistema.

Todas estas decisiones introducen sesgos continuamente en los datos y afectan nuestra capacidad de interpretarlos y, por lo tanto, comprender qué significan realmente.

Eliminando el sesgo de datos

Si queremos tomar mejores decisiones en un mundo digital por defecto, vamos a necesitar mejores datos y eso significa eliminar tantos sesgos de datos como sea posible.

Esta es una de las razones por las que OpenTelemetry es tan prometedor. Estandarizar la forma en que se genera y se ingiere la telemetría mediante agentes de código abierto (y, por lo tanto, de bajo costo o nulo) contribuirá en gran medida a eliminar una de las causas fundamentales del sesgo de datos: el presupuesto de TI. Al garantizar que puede recopilar telemetría de todos los sistemas en lugar de solo unos pocos considerados "dignos", elimina una fuente importante de sesgo en sus datos. Es por eso que nuestra visión de edge incluye la noción de integrar la generación de telemetría en la propia plataforma, para que esté siempre disponible, en todas partes.

El lago de datos como servicio también puede ser un medio eficaz para abordar el sesgo introducido por la curación debido al volumen y el costo de almacenamiento a lo largo del tiempo. Al subcontratar la escala y la capacidad, las organizaciones pueden ingerir más telemetría con mayor libertad, lo que facilita el descubrimiento de anomalías y patrones que afectan el rendimiento y más. En los últimos cinco años hemos visto un menú cada vez mayor de dichos servicios, a menudo agrupados como parte de la categoría XaaS que continúa consumiendo el presupuesto de TI a un ritmo cada vez mayor. Deloitte señaló en un informe sobre XaaS de este año que casi la mitad de las organizaciones asignarán al menos la mitad de su gasto en TI a XaaS.

Finalmente, al migrar de visualizaciones a información, se puede abordar el problema del sesgo en la entrega de datos operativos a través del panel de control. En lugar de simplemente mostrar instantáneas de puntos de datos en el tiempo, los conocimientos brindan información basada en patrones y relaciones descubiertas en los datos. Es más, el conocimiento puede eliminar simulacros de incendio innecesarios causados por la dependencia de métricas binarias. Los sistemas modernos están diseñados para fallar y recuperarse automáticamente. Recibir una notificación cada vez que eso sucede puede provocar fatiga de alerta que reduce la productividad. La capacidad de analizar la telemetría en el contexto de un flujo de usuario completo significa comprender cuándo un componente fallido requiere intervención y cuándo no. Migrar de un modo que se basa en la interpretación de múltiples visualizaciones a un modo que aproveche información integral puede eliminar algunos de los sesgos inherentes a la visualización.

A medida que las empresas se acercan a un modelo digital predeterminado, necesariamente dependen cada vez más de los datos. Eliminar el sesgo en esos datos será un paso fundamental para garantizar que las decisiones basadas en ellos conduzcan al mejor resultado posible para los clientes y la empresa.