BLOG

3 principais conclusões do painel de engenharia de confiabilidade do site com LinkedIn, Dell e Gremlin na NGINX Conf 2019

Miniatura F5
F5
Publicado em 12 de novembro de 2019

Na nossa NGINX Conf 2019, conduzimos mais de 50 sessões gravadas cobrindo vários assuntos, mas neste blog compartilharei lições de um dos tópicos mais quentes do setor: Engenharia de Confiabilidade do Site (e também o tópico relacionado de Engenharia do Caos). Vou me concentrar apenas em três pontos principais, mas recomendamos que você assista à sessão inteira aqui .

1.    Definição de SRE

A conversa começou sobre como os painelistas definiram o termo Engenharia de Confiabilidade do Site, com o comentário consistente de que é essencialmente: “Qualquer coisa para garantir que um site esteja funcionando.” Mas, além disso, eles também enfatizaram “ir realmente fundo e consertar o problema o mais rápido possível quando qualquer problema ocorrer” e “capacitar as equipes de desenvolvimento com uma mentalidade centrada no cliente”. Além disso, você reconheceu algumas semelhanças aproximadas com equipes tradicionais de Operações de Rede nas descrições? Sim, eu também, mas um dos palestrantes realmente leu minha mente ao destacar que, “Algumas organizações estabelecem uma equipe de SRE apenas renomeando sua equipe de Network Ops, mas essa não é a melhor maneira”. Houve alguma discussão sobre isso, mas minha conclusão aqui é que a maior diferença entre SRE e NetOps é que o pessoal de SRE "faz parte de uma equipe de desenvolvimento ou de atendimento ao cliente e realmente se concentra nas metas de negócios".

2.    Engenharia do Caos e Injeção de Falhas

Um dos principais tópicos para uma função SRE é o conceito de Engenharia do Caos. Deixarei a explicação detalhada da Engenharia do Caos para este artigo , mas nesta sessão o assunto é realmente "uma abordagem para identificar falhas críticas e corrigi-las rapidamente" — algo semelhante a simulações de incêndio. E embora tenha semelhanças com simulações de incêndio, o objetivo da Engenharia do Caos é mais amplo, pois se concentra na análise quantitativa de métricas de recuperação, durabilidade e disponibilidade.

A injeção de falhas é um método bastante comum, introduzido pela Netflix em 2014. É uma abordagem de teste para enviar metadados de simulação de falhas para o ambiente de produção para fins de teste, mas com controle. Esses esforços geralmente são liderados por equipes de SRE para garantir maior disponibilidade e confiabilidade do serviço (ou site).

3.    KPI e conjunto de habilidades do SRE

Houve uma discussão interessante sobre como o SRE deve ser medido. Embora tenha havido vários pontos levantados sobre o MTTD (tempo médio de detecção) e o MTTR (tempo médio de resposta) serem métricas significativas, todos os painelistas concordaram que as métricas variam dependendo do setor em que você atua, bem como dos sistemas ou sites em que você opera. Uma boa sugestão capturada da discussão foi: “Você pode começar fazendo esta pergunta: ‘Quais são os seus 5 sistemas mais críticos?’ e isso ajudará você a priorizar as coisas.”

O conjunto de habilidades preferenciais para uma posição de SRE foi outro tópico abordado. De acordo com os painelistas, isso também depende do sistema que você usa. (Por exemplo, se você estiver executando o NGINX, a experiência com o NGINX seria crucial para a contratação de um SRE.) Uma ótima sugestão do grupo foi explorar maneiras de rotacionar o pessoal de SRE entre diferentes áreas da empresa e sistemas para dimensionar – e equipar melhor – os recursos de SRE. Além disso, garanta que suas equipes de SRE participem de eventos e atividades da comunidade de SRE, como treinamentos, offsites, canais dedicados do Slack e "dias de jogos", entre outras sugestões úteis.

Conclusão – 2020 é o momento de definir sua própria estratégia de SRE?

Em poucas palavras, a discussão revelou que muitas organizações ainda estão aprendendo como definir e alavancar o conceito e o papel do SRE – e, como os painelistas reiteraram, isso geralmente varia dependendo dos setores e sistemas (e até mesmo de empresas individuais). No geral, a Engenharia do Caos continuará sendo abordada no ano que vem. Talvez este seja o momento perfeito para começar a pensar no que isso significa para você e sua organização?