La visibilidad tradicional, conocida como monitorización 1.0, se basa en la información. Las sondas, los agentes, los registros y los rastros ofrecen una gran cantidad de datos sobre el estado digital. Proviene de sistemas, infraestructuras, redes y plataformas. Se genera en tiempo real y después del proceso. Se crea en masa y, hoy en día, no se mide en KB, sino en GB.
Sinceramente, tenemos suficientes datos.
Lo que no tenemos es el producto de esos datos; no siempre tenemos los conocimientos que conducen a acciones correctivas positivas.
A veces, solo tenemos indicadores de estado binarios. El rojo es malo. El verde es bueno. E incluso cuando somos conscientes de que hay un problema, no tenemos suficiente información para averiguar dónde se generó. Sí, la aplicación A funciona mal y los usuarios se quejan. ¿Pero por qué? ¿Es por la red? ¿Sus dispositivos? ¿La plataforma? ¿El entorno de orquestación?
Incluso suponiendo que averiguamos rápidamente que el problema es de la red, no sabemos por qué está congestionada. ¿Hay demasiados usuarios? ¿Hay alguien que está ofreciendo una oferta hoy? ¿Es la temporada? ¿Se debe a una actualización reciente?
Las variables son muchas y hay mucho en juego. Si no abordamos el problema de la mala experiencia de usuario, pueden disminuir nuestros ingresos, dejarán de usar las aplicaciones y perderemos reputación. Cuando el negocio es digital, este sufre en función de las condiciones digitales.
Esta es la realidad que nos impulsa hacia la observabilidad y más allá, hacia las AIOps. La observabilidad, también conocida como monitorización 2.0, es un importante paso adelante en este viaje tecnológico para los operadores y las empresas digitales que se esfuerzan por comprender y estabilizar la relación entre la experiencia de usuario y los resultados empresariales. Pero solo supone la mitad de la batalla. La otra mitad implica la analítica y la automatización.
La observabilidad es más que simplemente “mejor visibilidad”. Es la capacidad de proporcionar una imagen de lo que está sucediendo a nivel de sistema. No es solo un tablero con información sobre red, infraestructura y rendimiento de aplicaciones presentada en gráficos coloridos. Es un esfuerzo concertado para correlacionar todos los datos de salud digital disponibles para pintar un panorama holístico de cómo está funcionando la experiencia del usuario en este momento. Es la fuerza impulsora detrás de las plataformas de datos operativos y una cantidad considerable de actividad de mercado a medida que los proveedores se posicionan para ganar el codiciado manto de "plataforma de datos operativos" en cada empresa.
Pero incluso al conseguir eso tenemos que seguir luchando para resolver los problemas que surgen invariablemente. Si conocer la experiencia del usuario es la mitad del camino, la otra mitad es averiguar el motivo y actuar en consecuencia.
El problema, por supuesto, es la molesta realidad de que casi todas las organizaciones carecen de la información que necesitan para actuar al servicio de una experiencia digital extraordinaria. Los análisis tradicionales son consultas enlatadas que no pueden identificar relaciones ni reconocer patrones en los datos que tienen la capacidad de destapar la información oculta. El aprendizaje automático presenta una solución, ya que ofrece los medios para agitar los datos voluminosos y tener los conocimientos necesarios para abordar la causa raíz de la pérdida de rendimiento o identificar un ataque antes de que sature los servicios o logre acceder.
Tampoco basta con tener la información. También es importante tener la capacidad de actuar rápidamente con base en esos conocimientos para mejorar el rendimiento o detener un ataque. Introducir revisiones y aprobaciones manuales para realizar cambios en las políticas reduce la agilidad de la organización ante problemas o ataques.
Necesitamos confiar en la computación para reaccionar de manera oportuna a la información obtenida de la telemetría. Responder cinco minutos después de que comienza un ataque puede ser demasiado tarde. Dos minutos después de una degradación del rendimiento es definitivamente demasiado tarde, teniendo en cuenta la impaciencia de los consumidores típicos. Construimos la computación para que fuera tremendamente eficiente en el procesamiento de datos. Consideremos que “tanto en términos de picos como de transmisión sináptica, el cerebro puede realizar como máximo unas mil operaciones básicas por segundo, o 10 millones de veces más lento que la computadora”. (Fuente: Nautilus ) Necesitamos aprovechar esa capacidad para superar la desaceleración que introducen los pasos manuales en un proceso que de otro modo estaría automatizado.
Si tuviéramos que correr las 500 millas de Daytona, no nos detendríamos en cada una de las curvas ni iríamos empujando el coche, ¿verdad? Sin adoptar un sistema totalmente autónomo, eso es lo que estamos haciendo con las experiencias digitales.
Llevamos mucho tiempo confiando en los sistemas para que escalen automáticamente los servicios y, en el futuro, aprenderemos a confiar en ellos para que tomen medidas correctivas que protejan los servicios y los datos y garanticen una experiencia digital extraordinaria para los consumidores. Más de la mitad (52 %) de los responsables de la toma de decisiones de TI están de acuerdo en que esta capacidad —a menudo denominada AIOps— tendrá un impacto estratégico en su organización.
Se trata de un plan de batalla para la experiencia digital totalmente funcional: un enfoque operativo automatizado de bucle cerrado e impulsado por los datos recogidos de cada capa de la pila.
Hay desafíos. No nos equivoquemos, no es una solución sencilla ni una que se pueda coger de la estantería y poner en práctica. La observabilidad de toda la pila —la capacidad de recopilar telemetría de todos los componentes, desde la red hasta la infraestructura, desde las tecnologías de seguridad y entrega hasta las aplicaciones— no es tan sencilla como desearían los proveedores de supervisión tradicionales. Los enfoques estándar basados en agentes y sondas no son eficientes ni rentables para arquitecturas en las que la nube distribuida será la norma. Las capacidades nativas de generación de telemetría —como las que se consiguen mediante la adopción de Open Telemetry— serán la mejor manera de conseguir la observabilidad de toda la pila que necesitan los análisis basados en el aprendizaje automático para producir de forma rápida y precisa información procesable que se alinee con los resultados empresariales deseados.
La automatización también tiene un largo camino por recorrer. Con poco más de la mitad (el 52 %) de las organizaciones actuales que tratan la infraestructura como código, está claro que muchas empresas aún no han apostado por la automatización. Sin embargo, esta capacidad está en el camino crítico. Sin ella, el bucle cerrado puede funcionar, pero ¿a qué precio? El impedimento introducido por las operaciones manuales en este bucle de retroalimentación introducirá un retraso que podría costar a la empresa clientes, reputación o datos valiosos.
La mayoría de las organizaciones hoy en día están operando en la segunda y tercera fase de la transformación digital . Motivados por la necesidad de moverse más rápido debido a la pandemia global, muchos han tomado decisiones tácticas que ahora deben incorporarse a un enfoque estratégico que los prepare para avanzar en su viaje de transformación digital .
Un enfoque estratégico es aquel que trabaja hacia el objetivo de un ciclo cerrado desde la observabilidad hasta los conocimientos y la automatización. Es parte de un enfoque que llamamos aplicaciones adaptativas , un enfoque que ofrece a los CIO un plan arquitectónico para modernizar la arquitectura empresarial para que TI pueda cerrar el círculo y permitir que la empresa opere como un negocio completamente digital.