No primeiro semestre deste ano, tanto os padrões de implantação de inferência quanto uma arquitetura emergente de aplicativos de IA começaram a se padronizar e fornecer uma melhor perspectiva sobre os impactos futuros em tudo, desde a rede até a entrega e a segurança dos aplicativos. Estamos confiantes nos resultados de nossa recente pesquisa focada em IA de que a inferência será implantada tanto no local quanto na nuvem (padrão autogerenciado), bem como consumida por meio de ofertas de provedores de nuvem (padrão hospedado na nuvem) e como um serviço (padrão de inferência como serviço).
No entanto, a arquitetura de IA emergente depende muito da geração aumentada de recuperação (RAG), que incorpora fontes de dados (gráficos de conhecimento e bancos de dados vetoriais) na arquitetura do aplicativo. A pesquisa indica que “70% das empresas que alavancam o GenAI usam ferramentas e bancos de dados vetoriais para aumentar os modelos básicos”. ( Databricks, 2024 )
A consequência desse padrão arquitetônico é quádrupla.
É importante observar que 90% dos desafios que as organizações enfrentam com relação à arquitetura de IA não são novos. Mudanças para atender às expectativas de visibilidade, limitação de taxa, roteamento, etc. são incrementais aos recursos existentes que a maioria das empresas já possui.
De todos os recursos necessários para fornecer e proteger aplicativos de IA, estimo que apenas 10% são novos, e quase todos estão relacionados a prompts e à natureza não estruturada do tráfego de aplicativos de IA. São esses 10% que dão origem a novos serviços de aplicação, como segurança imediata, gerenciamento imediato e otimização imediata, além de funções relacionadas à segurança de dados. A F5 já demonstrou comprometimento em atender a essas necessidades por meio de parcerias com a Portkey e a Prompt Security .
É aqui também que estamos vendo a introdução de gateways de IA. Agora, a definição de gateway de IA e os recursos que ele traz ao mercado variam dependendo de quem está oferecendo a "coisa", mas, assim como os gateways de API, os gateways de IA tendem a reunir recursos de segurança e roteamento de aplicativos em um único ponto de controle estratégico para as organizações. Mas, novamente, as capacidades na “coisa” são, em sua maioria, novas capacidades incrementais específicas para o tráfego de IA e o restante já existe.
O que é realmente interessante para mim é o novo nível, porque é onde os recursos de entrega e segurança de aplicativos novos e existentes serão necessários.
De fato, a introdução de uma nova camada está fazendo com que uma nova arquitetura de data center surja com infraestrutura capaz de fornecer os recursos de computação, armazenamento e rede necessários para executar inferência de IA em escala. É nessa camada que coisas como redes de IA ou fábricas de IA, ou como quer que as chamemos, estão surgindo. Independentemente do nome, essa nova construção de infraestrutura inclui a capacidade de operar construções de infraestrutura existentes em novos sistemas de hardware . Esse é o número 4 no diagrama bacana fornecido.
Mas também há algumas novas capacidades necessárias no nº 2. Embora a ponte aqui seja um caminho de dados N-S bastante padrão com uma necessidade óbvia de dimensionar, proteger e rotear o tráfego da API (sim, essa API é para inferência, mas ainda é uma API), provavelmente veremos novos algoritmos de balanceamento de carga — ou pelo menos, novos critérios de decisão incorporados aos algoritmos existentes — neste momento.
Por exemplo, contagens de tokens e janelas de contexto são particularmente importantes para entender o desempenho e a carga que uma determinada solicitação coloca no sistema receptor, sem mencionar o impacto das contagens de tokens no custo. Portanto, não é um grande salto lógico reconhecer que essas variáveis podem se tornar parte de qualquer decisão de balanceamento de carga/roteamento de tráfego tomada no nº 2.
O ponto nº 4 é talvez o mais interessante porque nos remete aos dias em que se utilizava hardware para descarregar tarefas de rede dos servidores. Sim, este é o retorno da abordagem “ deixar os servidores servirem ” à arquitetura. No mundo moderno, isso significa aproveitar as DPUs como um sistema holístico no qual a entrega e a segurança de aplicativos podem ser implantadas, deixando a CPU no servidor de inferência para, bem, inferir. É um padrão que já vimos antes e que resolverá com sucesso quaisquer problemas com serviços de inferência de dimensionamento (e, portanto, desempenho).
O impacto da arquitetura de IA na entrega e segurança de aplicativos é ao mesmo tempo mundano e monumental. É mundano porque os desafios são praticamente os mesmos. É monumental porque introduz pontos adicionais na arquitetura onde as organizações podem abordar esses desafios estrategicamente.
A forma como o setor responde tanto ao mundano quanto ao monumental moldará o futuro da entrega e da segurança de aplicativos.