BLOG | ESCRITÓRIO DO DIRETOR DE TECNOLOGIA

O Impacto da Inferência de IA na Arquitetura do Data Center

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 13 de junho de 2024

Já foi dito que o orçamento de TI é onde a estratégia vive ou morre. Se for esse o caso, então as estratégias de IA estão vivas e bem. 

Nossa pesquisa mais recente indica que as organizações estão alocando, em média, 18% do orçamento de TI apenas para IA. Mas é como esses 18% estão sendo alocados que nos dá um vislumbre de suas estratégias para IA.

Cerca de 18% do orçamento atual de IA é destinado a serviços de IA; aplicativos de terceiros que integram ou oferecem algum tipo de ferramenta de IA. O restante vai para modelos (19%), desenvolvimento (16%), segurança (9%), tecnologias de dados (11%) e GPUs (9%). 

Combinado com a divisão igualitária de gastos entre treinamento (50%) e inferência (50%) e a descoberta de que a IA será distribuída entre a nuvem pública (80%) e no local (54%), pode-se supor que as organizações estão planejando mudanças significativas em sua infraestrutura para dar suporte ao ciclo de vida completo da IA.

Parte desse suporte exige um novo olhar sobre a rede.

A construção da infraestrutura para dar suporte ao treinamento e à inferência requer atenção cuidadosa aos ambientes de aplicativos modernos, por exemplo, Kubernetes, e como o tráfego fluirá entre instâncias de IA e entre modelos e os aplicativos que os utilizam. 

Embora a NVIDIA não seja a única fornecedora de tecnologia de aceleração (GPUs, DPUs, IPUs, etc.), ela está liderando o caminho quando se trata de arquitetura de referência. É nesses detalhes que encontramos impactos significativos na arquitetura de rede e escalabilidade.

Pods, Clusters e Fábricas de IA

Há uma angústia considerável no setor atualmente sobre o uso de terminologia específica do Kubernetes. Enquanto os operadores passaram a entender a definição de pods e clusters, os principais provedores de GPU estão distorcendo essas definições quando se trata de implantar inferência em escala.

Por exemplo, a NVIDIA se refere aos pods de IA, que são clusters do Kubernetes. E eles chamam um conjunto relacionado de clusters de fábrica de IA. 

Não estou aqui para discutir terminologia — raramente ganho essas discussões — então, em vez disso, estou me concentrando nessas unidades de recursos de IA e no que elas significam para a rede.

Uma das realidades do dimensionamento da IA generativa, em particular, é a demanda por ciclos de computação. Especificamente, ciclos de computação da GPU. Para atender a essa demanda, especialmente para provedores de serviços de IA, é necessário construir unidades de computação de IA complexas. Essas unidades são o que a NVIDIA chama de pods de IA, mas outras, sem dúvida, terão seus próprios nomes especiais. Eles são essencialmente clusters do Kubernetes.

Isso significa muito tráfego EW interno para a unidade de computação de IA, mas também significa muito tráfego NS para essas unidades de computação de IA. E é aí que nos encontramos diante de uma mudança significativa na fronteira entre a infraestrutura tradicional de data center e os complexos de computação de IA emergentes.

Diagrama de como o data center e a IA se interconectam.

Há muita coisa acontecendo nesse limite, especialmente para provedores de serviços que precisam de isolamento de rede por locatário. Há também uma necessidade considerável de gerenciamento de tráfego L4-7, incluindo limitação de taxas para não sobrecarregar os recursos de IA. Há também o balanceamento de carga esperado para escala e distribuição, bem como serviços de rede como recursos avançados de CGNAT.

Grande parte disso também é necessária para empresas que esperam expandir suas implementações de IA para dar suporte a um conjunto crescente de casos de uso empresarial, desde produtividade até geração de código e conteúdo, automação de fluxo de trabalho e, claro, o crescente interesse em usar IA para operações. Embora o isolamento por locatário possa não ser um requisito empresarial, ele pode ser útil para garantir que cargas de trabalho de IA de alta prioridade, como automação e análise operacional, não sejam sufocadas por cargas de trabalho de IA de menor prioridade.

Seja um provedor de serviços ou uma empresa, o data center passará por mudanças significativas na rede. Inserir cargas de trabalho de IA em uma arquitetura de data center tradicional pode levar à falha de escala ou mesmo de operação confiável.

Entender as mudanças na arquitetura do data center é importante, assim como ter ferramentas e tecnologias como o BIG-IP Next SPK disponíveis para fornecer os recursos necessários para modernizar com sucesso a rede do data center e dar suporte a todas as cargas de trabalho de IA e aos negócios que, em última análise, dependerão delas.