A visibilidade tradicional, também conhecida como Monitoramento 1.0, é toda sobre informação. Sondas, agentes, registros e rastros oferecem uma riqueza de dados digitais de saúde. Ela vem dos sistemas, da infraestrutura, da rede, das plataformas. Ele é gerado em tempo real e pós-processado. Ele é criado em massa, medido não em KB hoje, mas em GB.
Honestamente, temos dados suficientes.
O que não temos é o produto desses dados; nem sempre temos os insights que levam a ações corretivas positivas.
Muitas vezes temos apenas indicadores de status binários. Vermelho é ruim. Verde é bom. E mesmo quando sabemos que há um problema, não recebemos informações suficientes para descobrir onde o problema começou. Sim, o aplicativo A está com desempenho ruim e os usuários estão reclamando. Mas por que? É a rede? O dispositivo deles? A plataforma? O ambiente de orquestração?
Mesmo supondo que descobrimos rapidamente que é a rede, não nos é oferecido nenhum insight sobre o motivo de ela estar tão congestionada. São muitos usuários? Alguém está oferecendo uma promoção hoje? É sazonal? É por causa de uma atualização recente?
As variáveis são volumosas e os riscos são altos. Não resolver o problema da experiência ruim do usuário pode levar à queda na receita, ao abandono de aplicativos e à perda de reputação. Quando os negócios são digitais, eles sofrem com base nas condições digitais.
Essa é a realidade que nos leva em direção à observabilidade e, além dela, às AIOps. Observabilidade, também conhecida como Monitoramento 2.0, é um passo significativo nessa jornada tecnológica para operadoras e empresas digitais, à medida que se esforçam para entender e estabilizar a relação entre a experiência do usuário e os resultados comerciais. Mas isso é apenas metade da batalha, e a outra metade envolve análise e automação.
Observabilidade é mais do que apenas “melhor visibilidade”. É a capacidade de fornecer uma imagem do que está acontecendo no nível do sistema. Não é apenas um painel com desempenho de rede, infraestrutura e aplicativos exibidos em gráficos coloridos. É um esforço concentrado para correlacionar todos os dados de saúde digital disponíveis para traçar um quadro holístico de como a experiência do usuário está se saindo agora. É a força motriz por trás das plataformas de dados operacionais e de uma quantidade considerável de atividade de mercado, à medida que os provedores se posicionam para ganhar o cobiçado título de "plataforma de dados operacionais" em todas as empresas.
Mas mesmo conseguindo isso, ainda temos que lutar para resolver os problemas que invariavelmente surgem. Se conhecer a experiência do usuário é metade da batalha, a outra metade é descobrir o porquê e agir de acordo.
O problema, claro, é a realidade incômoda de que quase todas as organizações não têm os insights necessários para agir em prol de uma experiência digital extraordinária. As análises tradicionais são consultas prontas que não conseguem identificar relacionamentos ou reconhecer padrões nos dados que podem revelar esses insights ausentes. O aprendizado de máquina apresenta uma solução, fornecendo os meios para analisar dados volumosos e descobrir os insights necessários para abordar a causa raiz da degradação do desempenho ou identificar um ataque antes que ele sobrecarregue os serviços ou consiga obter acesso.
Ter insights também não é suficiente. A capacidade de agir rapidamente com base nesses insights para melhorar o desempenho ou interromper um ataque também é importante. Inserir revisão e aprovações manuais para fazer alterações de políticas impede a agilidade organizacional diante de problemas ou ataques.
Precisamos confiar na computação para reagir em tempo hábil aos insights obtidos pela telemetria. Responder cinco minutos após o início de um ataque pode ser tarde demais. Dois minutos após uma degradação de desempenho é definitivamente tarde demais, com base na impaciência dos consumidores típicos. Nós construímos a computação para ser extremamente eficiente no processamento de dados. Considere que “tanto em termos de picos quanto de transmissão sináptica, o cérebro pode realizar no máximo cerca de mil operações básicas por segundo, ou 10 milhões de vezes mais devagar que o computador”. (Fonte: Nautilus ) Precisamos aproveitar essa capacidade para superar a lentidão introduzida por etapas manuais em um processo que de outra forma seria automatizado.
Se você fosse correr na Daytona 500, você não pararia em cada curva e forçaria seu carro no resto da volta, não é? Sem adotar um sistema totalmente autônomo, é isso que estamos fazendo com as experiências digitais.
Há muito tempo confiamos em sistemas para dimensionar serviços automaticamente e, no futuro, aprenderemos a confiar neles para tomar medidas corretivas que protejam serviços e dados e garantam uma experiência digital extraordinária para os consumidores. Mais da metade (52%) dos tomadores de decisão de TI concordam que esse recurso — mais frequentemente chamado de AIOps — terá um impacto estratégico em sua organização.
Este é um plano de batalha de experiência digital totalmente funcional: uma abordagem operacional automatizada de ciclo fechado, impulsionada por dados coletados de todas as camadas da pilha.
Há desafios. Não se engane, esta não é uma solução simples nem algo que você possa pegar na prateleira e implementar. A observabilidade full-stack — a capacidade de coletar telemetria de cada componente, da rede à infraestrutura, das tecnologias de segurança e entrega ao aplicativo — não é tão simples quanto os provedores de monitoramento tradicionais gostariam. Abordagens padrão baseadas em agentes e sondas não são nem eficientes nem econômicas em uma arquitetura onde a nuvem distribuída será a norma. Os recursos nativos de geração de telemetria, como aqueles obtidos por meio da adoção da Telemetria Aberta, serão a melhor maneira de atingir a observabilidade de pilha completa necessária para análises baseadas em aprendizado de máquina para produzir insights acionáveis de forma rápida e precisa, alinhados aos resultados comerciais desejados.
A automação também tem um longo caminho a percorrer. Com pouco mais da metade (52%) das organizações tratando a infraestrutura como código hoje, fica claro que muitas empresas ainda não se comprometeram totalmente com a automação. No entanto, essa capacidade está no caminho crítico. Sem ela, o circuito fechado pode operar, mas a que custo? A impedância introduzida pelas operações manuais neste ciclo de feedback introduzirá atrasos que podem custar clientes, reputação ou dados valiosos à empresa.
A maioria das organizações hoje está operando na segunda e terceira fases da transformação digital . Motivados pela necessidade de agir mais rápido devido à pandemia global, muitos tomaram decisões táticas que agora precisam ser incorporadas a uma abordagem estratégica que os prepare para avançar em sua jornada de transformação digital.
Uma abordagem estratégica é aquela que trabalha em direção ao objetivo de um ciclo fechado, da observabilidade aos insights e à automação. Faz parte de uma abordagem que chamamos de aplicativos adaptáveis ; uma abordagem que oferece aos CIOs um projeto arquitetônico para modernizar a arquitetura empresarial, para que a TI possa fechar o ciclo e permitir que a empresa opere como um negócio totalmente digital.