Já foi dito que o orçamento de TI é onde a estratégia vive ou morre. Se for esse o caso, então as estratégias de IA estão vivas e bem.
Nossa pesquisa mais recente indica que as organizações estão alocando, em média, 18% do orçamento de TI apenas para IA. Mas é como esses 18% estão sendo alocados que nos dá um vislumbre de suas estratégias para IA.
Cerca de 18% do orçamento atual de IA é destinado a serviços de IA; aplicativos de terceiros que integram ou oferecem algum tipo de ferramenta de IA. O restante vai para modelos (19%), desenvolvimento (16%), segurança (9%), tecnologias de dados (11%) e GPUs (9%).
Combinado com a divisão igualitária de gastos entre treinamento (50%) e inferência (50%) e a descoberta de que a IA será distribuída entre a nuvem pública (80%) e no local (54%), pode-se supor que as organizações estão planejando mudanças significativas em sua infraestrutura para dar suporte ao ciclo de vida completo da IA.
Parte desse suporte exige um novo olhar sobre a rede.
A construção da infraestrutura para dar suporte ao treinamento e à inferência requer atenção cuidadosa aos ambientes de aplicativos modernos, por exemplo, Kubernetes, e como o tráfego fluirá entre instâncias de IA e entre modelos e os aplicativos que os utilizam.
Embora a NVIDIA não seja a única fornecedora de tecnologia de aceleração (GPUs, DPUs, IPUs, etc.), ela está liderando o caminho quando se trata de arquitetura de referência. É nesses detalhes que encontramos impactos significativos na arquitetura de rede e escalabilidade.
Há uma angústia considerável no setor atualmente sobre o uso de terminologia específica do Kubernetes. Enquanto os operadores passaram a entender a definição de pods e clusters, os principais provedores de GPU estão distorcendo essas definições quando se trata de implantar inferência em escala.
Por exemplo, a NVIDIA se refere aos pods de IA, que são clusters do Kubernetes. E eles chamam um conjunto relacionado de clusters de fábrica de IA.
Não estou aqui para discutir terminologia — raramente ganho essas discussões — então, em vez disso, estou me concentrando nessas unidades de recursos de IA e no que elas significam para a rede.
Uma das realidades do dimensionamento da IA generativa, em particular, é a demanda por ciclos de computação. Especificamente, ciclos de computação da GPU. Para atender a essa demanda, especialmente para provedores de serviços de IA, é necessário construir unidades de computação de IA complexas. Essas unidades são o que a NVIDIA chama de pods de IA, mas outras, sem dúvida, terão seus próprios nomes especiais. Eles são essencialmente clusters do Kubernetes.
Isso significa muito tráfego EW interno para a unidade de computação de IA, mas também significa muito tráfego NS para essas unidades de computação de IA. E é aí que nos encontramos diante de uma mudança significativa na fronteira entre a infraestrutura tradicional de data center e os complexos de computação de IA emergentes.
Há muita coisa acontecendo nesse limite, especialmente para provedores de serviços que precisam de isolamento de rede por locatário. Há também uma necessidade considerável de gerenciamento de tráfego L4-7, incluindo limitação de taxas para não sobrecarregar os recursos de IA. Há também o balanceamento de carga esperado para escala e distribuição, bem como serviços de rede como recursos avançados de CGNAT.
Grande parte disso também é necessária para empresas que esperam expandir suas implementações de IA para dar suporte a um conjunto crescente de casos de uso empresarial, desde produtividade até geração de código e conteúdo, automação de fluxo de trabalho e, claro, o crescente interesse em usar IA para operações. Embora o isolamento por locatário possa não ser um requisito empresarial, ele pode ser útil para garantir que cargas de trabalho de IA de alta prioridade, como automação e análise operacional, não sejam sufocadas por cargas de trabalho de IA de menor prioridade.
Seja um provedor de serviços ou uma empresa, o data center passará por mudanças significativas na rede. Inserir cargas de trabalho de IA em uma arquitetura de data center tradicional pode levar à falha de escala ou mesmo de operação confiável.
Entender as mudanças na arquitetura do data center é importante, assim como ter ferramentas e tecnologias como o BIG-IP Next SPK disponíveis para fornecer os recursos necessários para modernizar com sucesso a rede do data center e dar suporte a todas as cargas de trabalho de IA e aos negócios que, em última análise, dependerão delas.