Estar “ligado” não é a medida de desempenho. Só porque a energia está chegando a uma lâmpada não significa que ela está fornecendo ao usuário luz suficiente para ver com segurança o que está fazendo. Muitos fatores diferentes além da potência afetarão se o usuário poderá ou não enxergar. A lâmpada pode estar fraca, seja porque está morrendo ou porque tem energia, mas não o suficiente. Se a lâmpada não tiver potência suficiente para mantê-la acesa, pode haver um problema com a fiação ou uma restrição no fluxo de eletricidade devido a um dimmer. E se a lâmpada for forte, o abajur pode ser muito escuro ou o espaço pode ser muito grande para apenas uma luz. Resumindo, há muitos fatores que impactam o desempenho da lâmpada e, consequentemente, a experiência do usuário. Da mesma forma, há mais para avaliar o desempenho e a confiabilidade de sistemas e aplicativos além da medida tradicional de tempo de atividade. A confiabilidade também depende do nível de serviço.
Sistemas e aplicativos são compostos de muitos componentes — infraestrutura, APIs, segurança, fluxos de trabalho, lógica, dados, etc. — reunidos para um propósito, e apenas estarem conectados não garante confiabilidade. Assim como na analogia da lâmpada, você deve ser capaz de avaliar e analisar todos os componentes para poder confirmar o desempenho e a experiência ideais. Enquanto em um negócio físico determinar uma deficiência no nível de serviço pode ser tão fácil quanto percorrer o "caminho do cliente" para avaliar a experiência geral, em um negócio digital isso pode ser um desafio significativo. Com os silos de negócios e TI criados pelas arquiteturas empresariais tradicionais, identificar um problema e encontrar sua causa raiz nem sempre é fácil ou eficiente. Os líderes empresariais podem pensar que há um problema, mas as equipes de TI que gerenciam seus componentes podem não pensar se tudo estiver "ligado". A engenharia de confiabilidade do site (SRE) é a ponte entre o negócio e a TI para garantir a execução dos compromissos comerciais por meio de objetivos de nível de serviço (SLOs) .
A engenharia de confiabilidade do site surgiu no Google no início dos anos 2000 e, de acordo com eles, “é o que você obtém quando trata as operações como se fossem um problema de software”. Em nossos termos, é um conjunto de processos, práticas e ferramentas, bem como uma cultura e uma mentalidade empregada para criar sistemas confiáveis, eficientes e escaláveis que dão suporte aos objetivos de negócios.
O SRE se concentra em sistemas confiáveis — não apenas disponíveis — e escaláveis. Acrescentamos que é uma mentalidade e uma cultura porque, assim como a segurança, espera-se que todos contribuam positivamente para sistemas confiáveis e de qualidade, independentemente de sua função. Embora também seja uma cultura e mentalidade, a prática de SRE geralmente está inserida em uma equipe de serviço que fornece todo o serviço de ponta a ponta. Essas equipes geralmente são responsáveis por melhorar o sistema principal e permitir a inovação por meio do monitoramento de disponibilidade, latência, desempenho e recuperação, ao mesmo tempo em que buscam melhorias contínuas com automação e eficiência. Em essência, eles estão olhando para toda a sala, não apenas verificando se a lâmpada está acesa.
A engenharia de confiabilidade do site define as medidas dos SLOs e SLIs (indicadores de nível de serviço) para atender aos resultados comerciais. Em termos mais simples, o SRE une as necessidades e metas das equipes de desenvolvimento, segurança e operação para cumprir de forma confiável as promessas feitas pela empresa aos seus clientes.
Se o compromisso comercial for que os usuários tenham luz suficiente para enxergar o que estão fazendo (nível de serviço), um SLO pode ser uma lâmpada bem iluminada (disponibilidade) mantida para cada 10 pés quadrados de espaço. Enquanto isso, outro SLO poderia ser um MTTR (tempo médio de recuperação) definido, neste exemplo, a quantidade de tempo em que lâmpadas queimadas ou queimadas serão substituídas. Os SLIs são os limites definidos pelos engenheiros de confiabilidade do local e pela TI para garantir que os SLOs sejam alcançados, como monitorar o fluxo luminoso, o fluxo de eletricidade para cada lâmpada ou as mudanças marginais na localização da lâmpada causadas por usuários que as batem ou movem. Em sistemas de entrega de aplicativos, isso pode ser visto como utilização de CPU, tempo de chamada de API e consulta de banco de dados, etc. Cabe aos engenheiros de confiabilidade do site definir as medidas de SLI que impactam os SLOs de negócios e quais respostas serão tomadas quando eles caírem abaixo de limites específicos, ajustando as políticas operacionais e a configuração.
As medidas, limites e respostas são a intersecção do SRE com os outros domínios de uma arquitetura empresarial moderna projetada para a entrega de aplicativos de um negócio digital. Dados operacionais — telemetria — alimentam a observabilidade das medidas e limites definidos pelo SRE. Automação é a aplicação combinada de ferramentas, tecnologias e práticas para permitir que engenheiros de confiabilidade de site dimensionem respostas definidas com menos esforço, possibilitando assim a satisfação eficiente dos SLOs de um serviço digital. E a confiabilidade do sistema de serviços digitais aumenta a probabilidade de uma experiência positiva do usuário com seu negócio digital.
Para reiterar, o SRE atua como uma ponte que unifica os esforços de TI e do negócio, usando todas as ferramentas, tecnologias e processos disponíveis para ir além de apenas ter sistemas "ligados", e também garantir que eles estejam funcionando de forma confiável. Ao adotar o SRE na arquitetura empresarial, as empresas podem ser proativas no cuidado de seus aplicativos de sistema e perceber quedas ou irregularidades mais cedo, que os engenheiros de confiabilidade do site podem então investigar e resolver antes que a experiência do usuário seja afetada.
Para aprender como integrar o SRE ao seu negócio e dar suporte à jornada de transformação para um negócio digital eficiente e escalável, leia “The Need for Speed”, um capítulo de Julia Renouard em nosso livro da O'Reilly, Enterprise Architecture for Digital Business .