BLOG | ESCRITÓRIO DO DIRETOR DE TECNOLOGIA

Entrega de aplicativos e segurança para aplicativos de IA: Navegando pela Arquitetura Moderna de IA

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 22 de agosto de 2024

No primeiro semestre deste ano, tanto os padrões de implantação de inferência quanto uma arquitetura emergente de aplicativos de IA começaram a se padronizar e fornecer uma melhor perspectiva sobre os impactos futuros em tudo, desde a rede até a entrega e a segurança dos aplicativos. Estamos confiantes nos resultados de nossa recente pesquisa focada em IA de que a inferência será implantada tanto no local quanto na nuvem (padrão autogerenciado), bem como consumida por meio de ofertas de provedores de nuvem (padrão hospedado na nuvem) e como um serviço (padrão de inferência como serviço).

No entanto, a arquitetura de IA emergente depende muito da geração aumentada de recuperação (RAG), que incorpora fontes de dados (gráficos de conhecimento e bancos de dados vetoriais) na arquitetura do aplicativo. A pesquisa indica que “70% das empresas que alavancam o GenAI usam ferramentas e bancos de dados vetoriais para aumentar os modelos básicos”. ( Databricks, 2024 )

A consequência desse padrão arquitetônico é quádrupla.

  1. Expande o número de cargas de trabalho de aplicativos modernos na empresa.
  2. Aumenta drasticamente o número de APIs que precisam de segurança.
  3. Aumenta a relevância estratégica do caminho de dados EW para entrega de aplicativos e tecnologias de segurança.
  4. Introduz uma nova camada nas arquiteturas de aplicativos: a camada de inferência. Esta é a camada de “modelo” referenciada pelas primeiras pilhas de tecnologia de IA, mas ao operar aplicativos de IA, ela ajuda a diferenciar entre um modelo em treinamento (processo de desenvolvimento) e um modelo em operação (processo de execução).

É importante observar que 90% dos desafios que as organizações enfrentam com relação à arquitetura de IA não são novos. Mudanças para atender às expectativas de visibilidade, limitação de taxa, roteamento, etc. são incrementais aos recursos existentes que a maioria das empresas já possui.

De todos os recursos necessários para fornecer e proteger aplicativos de IA, estimo que apenas 10% são novos, e quase todos estão relacionados a prompts e à natureza não estruturada do tráfego de aplicativos de IA. São esses 10% que dão origem a novos serviços de aplicação, como segurança imediata, gerenciamento imediato e otimização imediata, além de funções relacionadas à segurança de dados. A F5 já demonstrou comprometimento em atender a essas necessidades por meio de parcerias com a Portkey e a Prompt Security .

É aqui também que estamos vendo a introdução de gateways de IA. Agora, a definição de gateway de IA e os recursos que ele traz ao mercado variam dependendo de quem está oferecendo a "coisa", mas, assim como os gateways de API, os gateways de IA tendem a reunir recursos de segurança e roteamento de aplicativos em um único ponto de controle estratégico para as organizações. Mas, novamente, as capacidades na “coisa” são, em sua maioria, novas capacidades incrementais específicas para o tráfego de IA e o restante já existe.

O que é realmente interessante para mim é o novo nível, porque é onde os recursos de entrega e segurança de aplicativos novos e existentes serão necessários.

De fato, a introdução de uma nova camada está fazendo com que uma nova arquitetura de data center surja com infraestrutura capaz de fornecer os recursos de computação, armazenamento e rede necessários para executar inferência de IA em escala. É nessa camada que coisas como redes de IA ou fábricas de IA, ou como quer que as chamemos, estão surgindo. Independentemente do nome, essa nova construção de infraestrutura inclui a capacidade de operar construções de infraestrutura existentes em novos sistemas de hardware . Esse é o número 4 no diagrama bacana fornecido.

Mas também há algumas novas capacidades necessárias no nº 2. Embora a ponte aqui seja um caminho de dados N-S bastante padrão com uma necessidade óbvia de dimensionar, proteger e rotear o tráfego da API (sim, essa API é para inferência, mas ainda é uma API), provavelmente veremos novos algoritmos de balanceamento de carga — ou pelo menos, novos critérios de decisão incorporados aos algoritmos existentes — neste momento.

Por exemplo, contagens de tokens e janelas de contexto são particularmente importantes para entender o desempenho e a carga que uma determinada solicitação coloca no sistema receptor, sem mencionar o impacto das contagens de tokens no custo. Portanto, não é um grande salto lógico reconhecer que essas variáveis podem se tornar parte de qualquer decisão de balanceamento de carga/roteamento de tráfego tomada no nº 2.

O ponto nº 4 é talvez o mais interessante porque nos remete aos dias em que se utilizava hardware para descarregar tarefas de rede dos servidores. Sim, este é o retorno da abordagem “ deixar os servidores servirem ” à arquitetura. No mundo moderno, isso significa aproveitar as DPUs como um sistema holístico no qual a entrega e a segurança de aplicativos podem ser implantadas, deixando a CPU no servidor de inferência para, bem, inferir. É um padrão que já vimos antes e que resolverá com sucesso quaisquer problemas com serviços de inferência de dimensionamento (e, portanto, desempenho).

O impacto da arquitetura de IA na entrega e segurança de aplicativos é ao mesmo tempo mundano e monumental. É mundano porque os desafios são praticamente os mesmos. É monumental porque introduz pontos adicionais na arquitetura onde as organizações podem abordar esses desafios estrategicamente.

A forma como o setor responde tanto ao mundano quanto ao monumental moldará o futuro da entrega e da segurança de aplicativos.