Como parte do nosso plano de controle baseado em SaaS, construímos e executamos nosso próprio backbone global (AS35280), usando vários links de 100G e 400G entre nossos PoPs.
Dessa forma, temos controle total sobre a conectividade de ponta a ponta entre nossas bordas regionais, mas isso também nos permite fornecer a mesma conectividade de alto desempenho e baixa latência aos nossos clientes — em seus data centers privados, sites de borda, VPCs de nuvem pública (AWS, Azure, GCP), bem como provedores de SaaS.
Nossa presença europeia já era muito boa, com presença em Paris, Londres, Amsterdã e Frankfurt, mas clientes existentes e novos exigiam um novo PoP em Lisboa, Portugal.
Tudo isso foi acordado no início de 2020, e a implantação foi planejada para o terceiro trimestre de 2020. Claro, isso foi antes da COVID-19 :)
Com a crise, vimos muito mais tráfego (e também ataques DDoS, mas falaremos mais sobre isso em uma postagem futura do blog) em nosso backbone, e nossos clientes também.
Eles nos pediram para implantar antes do terceiro trimestre, porque precisavam desse PoP o mais rápido possível — mais precisamente, antes do final de maio. E como nós da Volterra somos pessoas legais, e também porque gostamos de desafios, analisamos cuidadosamente o tempo necessário para atender à demanda do cliente:
Sabendo que estávamos no início de abril, parecia tudo bem e decidimos continuar e lançar o projeto, mesmo sendo esse o pior momento possível para fazê-lo, devido a:
A implantação de um novo PoP não envolve apenas roteadores, switches e cabos. Você também precisa:
Com a crise em curso, era impossível ter o hardware necessário a tempo. Então decidimos reutilizar alguns que tínhamos disponíveis, a maioria do nosso laboratório. Essa foi uma troca aceitável (por exemplo, os roteadores usados serão o Juniper QFX10K em vez do MX10K planejado).
O staging, que normalmente fazemos obviamente em um data center (por causa da energia e do espaço em rack necessários, mas também... barulho!), teria que ser feito em casa por causa do bloqueio. Raphaël, nosso CTO de Infraestrutura, tinha um escritório grande o suficiente (incluindo um contrato de 60 A, o que pode ser útil quando você inicializa/alimenta equipamentos que consomem até 16 A!), então ele faria toda a preparação sozinho, o que também evitaria que outros funcionários se envolvessem/tivessem que sair.
Depois que tudo foi configurado e testado várias vezes, enviamos para Lisboa:
Embora estivéssemos confiantes na configuração que fizemos (e tivéssemos acesso remoto via OOB ou nosso backbone de qualquer maneira), esta foi a primeira vez que um novo PoP não seria implantado por nós diretamente, mas por outra pessoa 😅
Usamos o mesmo design de rack em todo o mundo, e o objetivo era ser consistente e ter a mesma configuração para este novo PoP de Lisboa.
Então tivemos que ser extremamente precisos com as instruções que estávamos dando aos controles remotos da Equinix para que eles pudessem imitar e apenas tivessem que "seguir o guia".
Abaixo está uma parte do procedimento que enviamos para a Equinix - para que eles possam facilmente montar e conectar tudo.
Há muitos componentes para lidar — não apenas os dispositivos de hardware (roteadores, switches, firewalls, servidores), mas também o cabeamento e, mais importante, as portas do switch e do servidor para conectar os cabos.
Como você pode ver abaixo, o procedimento é o mais detalhado possível, tendo em mente que os técnicos da Equinix têm muita instalação para fazer, então quanto mais precisos formos, melhor!
Sim! A instalação começou em 5 de maio, com todos os dispositivos instalados e ligados, e sem nenhuma falha de hardware — tivemos sorte, ou talvez graças à nossa experiência, o envio e a embalagem foram feitos corretamente, ou talvez ambos — mas, em qualquer caso, tudo funcionou bem.
No dia seguinte, os técnicos da Equinix cuidaram do cabeamento (cobre/fibra) e, às 23h30, conseguimos fazer ping em nosso PoP de Lisboa a partir de Paris!
A instalação foi concluída em 7 de maio, com as tarefas finais a serem realizadas, como a configuração de PDUs, conexão cruzada das portas OOB e verificação de portas IXP de ponta a ponta. Mesmo que a configuração dos nossos switches/firewall estivesse totalmente funcional, não precisávamos pedir alterações de configuração à Equinix.
A instalação final fica assim:
Como somos super exigentes, não estamos 100% satisfeitos, por exemplo, o painel traseiro do rack não está tão limpo quanto gostaríamos — mas consertaremos isso quando a crise passar e pudermos viajar novamente para Portugal.
Embora estejamos extremamente felizes e orgulhosos por termos conseguido enfrentar o desafio, gostamos de dar um passo para trás e refletir sobre o que funcionou, mas principalmente sobre o que pode ser melhorado.
O que funcionou:
Por que isso funcionou?
O que pode ser melhorado?
Apresentamos esta implantação durante a primeira reunião remota do RIPE (RIPE 80), você pode assistir à gravação aqui: