White Paper

Política em Carga: Preparando arquiteturas para agentes de IA

Agentes de IA estão transformando a interação entre aplicações e infraestrutura. Ao contrário dos sistemas tradicionais, esses agentes trazem seus próprios objetivos, contexto e lógica de decisão em cada solicitação — definindo o que fazer, como se recuperar e o que significa sucesso. Essa mudança rompe com antigas premissas sobre gerenciamento de tráfego e exige repensar a infraestrutura empresarial. Roteamento estático, recursos compartilhados e políticas centralizadas já não atendem à autonomia por solicitação.

Arquiteturas baseadas em agentes exigem que a infraestrutura evolua da execução reativa para a interpretação em tempo real da intenção incorporada. Empresas que identificam essa mudança podem se preparar sem abandonar os investimentos atuais, adaptando-os conforme necessário.

Introdução

Agentes de IA não são simplesmente aplicações inteligentes. Eles causam uma mudança estrutural na forma como as aplicações operam, decidem e se adaptam. Diferente dos sistemas tradicionais, agentes não apenas respondem às políticas de tráfego, eles trazem suas próprias. Cada solicitação enviada inclui não só dados, mas também lógica embutida: o que deve acontecer, como o fallback deve agir e o que define o sucesso.

Essa mudança transfere a tomada de decisão dos planos de controle estáticos para o próprio tempo de execução. Ela elimina a longa separação entre os planos de controle e dados, exigindo que a infraestrutura de tráfego — balanceadores de carga, gateways, proxies — atue como intérprete de políticas por solicitação, ao invés de executor passivo de rotas pré-configuradas.

Este artigo analisa como arquiteturas baseadas em agentes rompem premissas fundamentais na engenharia de tráfego, desde verificações de integridade e lógica de fallback até observabilidade e aplicação de segurança. Explica por que estruturas tradicionais, como pools estáticos e métricas de integridade baseadas em médias, já não atendem às necessidades em um cenário de intenção definida por requisição. Argumenta que a infraestrutura da Camada 7 precisa evoluir para não correr o risco de se tornar um encanamento comoditizado — confiável, mas invisível estrategicamente. Para isso, você deve repensar sua pilha de tráfego, tornando-a programável em tempo real, sensível ao contexto e alinhada a protocolos nativos de agentes, como o Model Context Protocol (MCP). Isso implica reformular a lógica de fallback, adotar observabilidade semântica e garantir aplicação de políticas originadas pelos agentes. Ferramentas emergentes, como a rotulagem de dados em tempo real, são essenciais para apoiar essa transformação.

Em resumo, o futuro do gerenciamento de tráfego vai além de entregar pacotes; trata-se de cumprir um propósito.

Arquiteturas de agentes: Características principais

Arquiteturas de agentes criam um novo modelo operacional no qual componentes autônomos, baseados em IA generativa — chamados agentes — realizam tarefas focadas em objetivos, tomam decisões em tempo real e utilizam o contexto necessário para ajustar a execução conforme necessário. Esses agentes funcionam de forma semelhante ao encadeamento de serviços que conhecemos hoje, mas sem depender de fluxos de trabalho pré-definidos. Em vez disso, eles definem o fluxo adequado de execução durante a operação, considerando os objetivos, o estado do ambiente e os resultados obtidos.

Essa transformação rompe com sistemas tradicionais centralmente orquestrados e fluxos de trabalho predefinidos, avançando para sistemas descentralizados e dinâmicos que constroem caminhos de execução em tempo real. Substituímos a previsibilidade das cadeias estáticas de microsserviços por decisões fluidas e responsivas, pautadas por dados e intenções ao vivo.

Sistemas baseados em agentes apresentam as seguintes características:

  • Execução orientada por metas: Você orienta os agentes por meio de comandos ou missões, não por fluxos de trabalho fixos. Eles escolhem APIs, ajustam parâmetros e redirecionam conforme avançam no objetivo.

    Exemplo: Um agente que resolve reclamações de clientes pode usar as APIs de cobrança, conta e mensagens de maneiras diferentes, conforme os resultados anteriores.

  • Contexto portátil: Agentes carregam sua própria memória, estado e políticas. Via Model Context Protocol (MCP) ou metadados estruturados, embutem esse contexto em cada solicitação.
  • Adaptação em tempo real: Em vez de aguardar uma decisão da infraestrutura, os agentes se adaptam imediatamente, repetindo tentativas, redirecionando, escalando ou ajustando os caminhos de execução em tempo real.
  • Observabilidade embutida: Cada ação se descreve automaticamente. Os agentes explicam por que escolheram um caminho, o que avaliaram e se atingiram o objetivo. Aqui, observabilidade é comportamento, não somente logs e métricas.

Juntos, transformam o cenário das aplicações de algo previsível para algo adaptável e em constante evolução.

Impacto no gerenciamento tradicional de tráfego

Os sistemas atuais de gerenciamento de tráfego funcionam com limites claros:

  • O plano de controle determina a intenção: quais endpoints são válidos, quais caminhos devem ser priorizados, quais políticas aplicar.
  • O plano de dados toma decisões: roteia solicitações, aplica a segurança, distribui a carga.

Esse modelo tem apresentado bons resultados por décadas, especialmente em arquiteturas orientadas a serviços e ambientes de microsserviços. Ele parte do pressuposto de que é possível modelar os fluxos de tráfego antecipadamente e que as cargas de trabalho seguem padrões previsíveis.

Exemplos:

  • Um balanceador de carga direciona /api/login para um pool e /api/images para outro.
  • As verificações de saúde indicam se os nós estão disponíveis ou indisponíveis.
  • Definimos limiares estáticos para as condições de failover.

Esses sistemas se baseiam em:

  • Acoplamento rígido entre política e configuração a recursos estáticos, como pools e membros específicos
  • Recursos estáticos como pools e membros
  • Roteamento determinístico orientado por caminho, cabeçalho ou protocolo
  • Orquestre centralizadamente a descoberta de serviços, as verificações de integridade e a lógica de fallback

Mas sistemas baseados em agentes trazem fluidez, autonomia e lógica autodirigida, quebrando essas suposições.

Nas arquiteturas com agentes, a separação tradicional entre plano de controle e plano de dados começa a desaparecer. Os agentes não executam apenas as solicitações; eles incorporam a lógica que define o que é a solicitação, quando acionar alternativas, como medir o sucesso e qual rota seguir preferencialmente. Esses aspectos, que eram típicos do plano de controle, os agentes incorporam em cabeçalhos, tokens ou metadados que acompanham a solicitação pelo plano de dados.

Essa convergência faz com que o plano de dados não possa mais agir como executor passivo de decisões centralizadas. Ele precisa interpretar a política de forma ativa e imediata. A solicitação deixou de ser apenas um pacote; tornou-se um artefato de política. Assim, balanceadores de carga, gateways e camadas de roteamento precisam evoluir de componentes reativos para intérpretes em tempo real da intenção transmitida pelo agente.

Essa mudança desafia a premissa fundamental da arquitetura de que o plano de controle é estático e centralizado. Agora, a lógica de decisão se distribui, torna-se portátil e personalizada, acompanhando cada solicitação e sendo executada em tempo real. Não se trata apenas de uma mudança no modelo de implantação; é uma transformação no local e na forma como as decisões são tomadas.

Isso conclui de forma eficaz o que o Kubernetes iniciou ao abstrair a infraestrutura subjacente — rede, armazenamento e até o roteamento de tráfego L4 — tornando tudo um "encanamento" por trás de uma interface declarativa. Não eliminamos essas camadas, apenas mostramos que elas têm importância menor. Elas se tornaram invisíveis, automatizadas e subordinadas a um novo sistema orientado por intenção.

As arquiteturas de agentes fazem o mesmo, mas abrangem toda a pilha, não só a infraestrutura.

Interrupções críticas no gerenciamento de tráfego

Para ilustrar essas mudanças com um exemplo prático, considere um cenário local de entrega de aplicação:

Exemplo: Um site regional de comércio eletrônico usa um ADC para gerenciar o tráfego interno da API. Um agente de IA é designado para otimizar a velocidade de atendimento dos pedidos. Ele identifica que um endpoint específico da API, por exemplo /api/inventory/check, apresenta desempenho degradado devido ao aumento da complexidade das solicitações e à contenção do banco de dados de backend. Algoritmos tradicionais de balanceamento de carga, inclusive o de "resposta mais rápida", falham em captar os detalhes dessa lentidão, pois calculam o desempenho como uma média geral de todas as respostas de um membro do pool, e não por tarefa ou chamada.

Para garantir o SLA, o agente redireciona essas solicitações de verificação de inventário para um grupo alternativo de nós otimizado para consultas transacionais. Ele faz isso ao marcar cada solicitação com um cabeçalho de contexto, como X-Task-Profile: inventory-sensitive. Se estiver configurado corretamente, o balanceador de carga interpreta essa informação e direciona o tráfego adequadamente. Mas, como esses nós não foram pré-atribuídos no pool estático associado a /api/inventory, os serviços de roteamento devem respeitar as instruções do agente e resolver o roteamento dinamicamente, sem depender de configurações estáticas.

Controle a convergência do plano de dadosEsse cenário evidencia as limitações de estruturas estáticas, como pools, e a necessidade de uma execução de tráfego programável dinamicamente e sensível ao contexto.

Sistemas baseados em agentes rompem várias premissas fundamentais na engenharia de tráfego:

Convergência entre plano de controle e dados: Antes, decisões de roteamento vinham de regras estáticas; agora, partem da própria solicitação. Isso elimina a lógica tradicional de aplicação.

Roteamento orientado por intenção: Os agentes direcionam o tráfego com base em objetivos, não apenas nos pontos finais. Um único ponto final como /api/process pode atender centenas de fluxos de tarefas diferentes, conforme as instruções do agente.

Pools estáticos se tornam obsoletos: Pools tradicionais definem funções fixas. Mas agentes podem precisar de acesso à GPU em um momento e otimização de CPU no outro, fazendo com que a associação ao pool seja muito rígida.

Fallbacks e failovers viram parte da estratégia: Antes, failover significava “tentar o próximo servidor”. Agora, agentes avaliam desempenho em tempo real, analisam histórico e decidem estrategicamente como agir.

Padrões de tráfego surgem, não se repetem: Os agentes criam fluxos de trabalho conforme a necessidade. Você não pode pré-definir todos os caminhos; eles se formam de acordo com as demandas.

Essas interrupções exigem que balanceadores de carga, gateways e pilhas de observabilidade reajam rapidamente a uma lógica de tráfego dinâmica em tempo real.

Reavaliando métricas de saúde e desempenho

Métricas de saúde e desempenho sempre foram essenciais para o gerenciamento de tráfego. Você precisa saber se um servidor está disponível, com que rapidez ele responde e quão ocupado está para tomar decisões de balanceamento de carga. Em sistemas baseados em agentes, saúde não é algo binário, e desempenho não pode ser medido pela média em categorias gerais. As métricas precisam mostrar se um alvo é adequado para uma tarefa específica, e não só se ele está ativo.

Por que importa: Métricas de integridade impactam diretamente o roteamento do tráfego, decisões de failover e otimização de desempenho. Em um ambiente nativo de agente, cada solicitação possui uma intenção diferente e pode exigir um caminho ou garantia de resposta distinta. Abordagens tradicionais não conseguem atender a essa demanda porque:

  • Eles dependem de agregados superficiais (como o tempo médio de resposta) que escondem a variação específica da tarefa.
  • Eles avaliam a saúde apenas sob a perspectiva do servidor, sem oferecer insights sobre o sucesso ou a satisfação no nível do agente.
  • Pressupõem homogeneidade do tráfego, o que não ocorre quando as solicitações são definidas por decisões em tempo real.

Exemplo: Um conjunto de servidores de API pode estar "saudável" nas verificações de integridade, mas um deles falha sistematicamente em entregar respostas abaixo de 100ms para consultas X-Task-Profile: inventory-sensitive. Você perceberá uma falha nesse perfil de latência, mesmo que a infraestrutura esteja funcionando normalmente.

O que você precisa:

  • Telemetria em tempo real, por cada solicitação, que mostra a intenção e os resultados observados.
  • Pontuação de saúde específica para tarefas que identifica quando um nó está degradado em algumas tarefas, mesmo que esteja saudável em outras.
  • Utilizamos ciclos de feedback que incluem o sucesso ou a falha relatada pelo agente na lógica de solicitar roteamento e priorização.

Ferramentas de rotulagem de dados têm papel essencial aqui, ao identificar o tráfego em movimento e registrar desempenho e alinhamento de contexto. Isso capacita os sistemas a avaliar não só o que ocorreu, mas se atingiu a meta do agente que o iniciou.

Recursos de fallback, disjuntores e capacidade de retentativa em arquiteturas de agentes

Na infraestrutura tradicional, implementamos o comportamento de fallback—como novas tentativas, redirecionamento para nós de backup ou acionamento de disjuntores—na camada de infraestrutura. Balanceadores de carga, proxies e gateways usam limites predefinidos (por exemplo, tempos limite, taxas de erro) para decidir quando parar de direcionar tráfego a um destino e tentar uma alternativa.

Arquiteturas de agentes mudam essa lógica.

Os agentes incorporam suas próprias estratégias de contingência. Eles aplicam políticas de nova tentativa, lógica de escalonamento e prioridades focadas no objetivo diretamente na solicitação. Isso gera complexidade e riscos de conflito com os mecanismos de failover da infraestrutura.

Por que isso importa:

  • A infraestrutura pode considerar uma falha recuperável enquanto o agente a considera inaceitável (ou vice-versa).
  • O agente e a infraestrutura podem tentar o fallback ao mesmo tempo, causando tentativas repetidas, aumento da latência ou loops de tráfego.
  • Disjuntores projetados para tráfego mediano podem bloquear seu acesso a serviços que um agente ainda considera ideais.

Riscos principais:

  • Fallback duplo: O agente e a infraestrutura tentam novamente, gerando uma carga desnecessária.
  • Condições de corrida: O agente recorre a uma opção mais cara ou menos segura, enquanto o sistema resolveria o problema em poucos milissegundos.
  • Quebra no failover determinístico: Políticas estáticas não conseguem captar as nuances do agente.
  • Corrupção: Os metadados do agente estão corrompidos, ausentes ou ilegíveis.

Instruções para adaptação:

  • A infraestrutura deve evoluir para reconhecer as prioridades de fallback indicadas pelo agente (por exemplo, por meio de X-Fallback-Order, X-Timeout-Preference).
  • Precisamos que os disjuntores entendam a intenção para aplicar lógica por tarefa ou por agente, e não se basear em limites globais.
  • Considere implementar uma lógica de failover que reconheça negociações, em que os agentes proponham estratégias preferidas e os gateways arbitrem com base na saúde, carga e política do sistema.
  • Os sistemas de tráfego precisam suportar lógica de execução padrão quando os metadados do agente estiverem ausentes, incompletos ou não passarem na validação do esquema, garantindo uma degradação adequada.
  • A infraestrutura precisa identificar e impedir delegações recursivas ou tentativas conflitantes de agentes que podem causar loops ou aumentar o tráfego durante a degradação do sistema.

Exemplo: Um agente responsável por uma checagem de fraude em tempo real solicita uma resposta em até 50 ms. Sua lógica de fallback prioriza um resultado parcial em cache em vez de uma consulta completa mais lenta. Uma infraestrutura que não percebe isso pode continuar a enviar a solicitação para o backend completo, causando atraso visível ao usuário. Um modelo mais cooperativo seguiria a prioridade de fallback do agente e forneceria a resposta mais rápida, mesmo que degradada.

À medida que tomamos decisões mais complexas, as estratégias de fallback também precisam evoluir. Disjuntores e lógica de tentativas não podem ser fixos ou obscuros; precisam ajustar-se às preferências definidas pelo agente, garantindo segurança e justiça em todo o sistema.

Alta disponibilidade e failover continuam essenciais

Apesar das arquiteturas de agentes transferirem a tomada de decisões e a coordenação para a camada de solicitação, a infraestrutura continua a garantir a confiabilidade central do sistema. Portanto, os mecanismos de alta disponibilidade (HA) e failover na camada de infraestrutura são essenciais. Eles se tornam ainda mais críticos à medida que os sistemas adotam comportamentos mais dinâmicos e autônomos.

Os agentes direcionam o tráfego com base em objetivos e contexto, mas ainda dependem da rede para garantir que os serviços continuem acessíveis e resilientes quando algo dá errado. Os balanceadores de carga detectam nós inacessíveis, serviços falhos ou ambientes degradados e redirecionam o tráfego em tempo real, independentemente da estratégia de fallback do agente.

Responsabilidades centrais que permanecem inalteradas:

  • Monitore os membros do pool e a saúde dos serviços backend
  • Detecte partições na rede ou falhas de roteamento
  • Redirecione o tráfego com base na atividade, disponibilidade ou degradação do sistema
  • Mantenha HA para serviços ou sessões stateful quando necessário

Agentes podem incluir lógica para definir “o que deve acontecer a seguir,” mas o balanceador de carga é responsável por “quão rápido recuperamos quando um nó cai.”

A lógica de roteamento adaptável e consciente do agente deve garantir a estabilidade operacional sem comprometer o desempenho. Garantimos que uma infraestrutura bem monitorada mantenha:

  • Failover instantâneo e reequilíbrio de tráfego quando os nós ficam indisponíveis
  • Topologias de HA resilientes que protegem agentes e serviços contra falhas a montante
  • Recuperação rápida e automatizada que complementa a lógica de fallback do agente sem conflitá-la

Em resumo, arquiteturas orientadas por agentes não eliminam a necessidade de failover — elas elevam a responsabilidade. Agora, a infraestrutura precisa responder mais rapidamente, com maior sensibilidade ao contexto e sem se tornar um gargalo para o comportamento autônomo.

Implicações para o gerenciamento do tráfego nas empresas

A transição para arquiteturas baseadas em agentes altera profundamente como sistemas de tráfego, como balanceadores de carga e gateways, precisam funcionar. Enquanto os sistemas tradicionais de tráfego tomavam decisões apoiadas em políticas pré-configuradas—geralmente externas à solicitação—os sistemas baseados em agentes incorporam essa política diretamente na solicitação. Essa é a base do que o Protocolo de Contexto do Modelo (MCP) permite: execução de política embutida por solicitação.

Vamos chamar esse modelo de "política na carga útil." Em vez de sistemas centralizados interpretarem cada exceção, o agente insere decisões relevantes da política (como estratégia de fallback, preferência de nó, tolerância a erros ou requisitos de privacidade) em cada solicitação. A infraestrutura precisa então ler, interpretar e agir conforme essas instruções de política em tempo real.

Esse novo modelo de execução redefine o papel dos componentes do gerenciamento de tráfego:

  • Dos decisores aos executores: A infraestrutura não define mais para onde o tráfego vai; ela aplica a decisão do agente.

    Exemplo: Um balanceador de carga que lê X-Route-Preference: gpu-optimized deve encaminhar o tráfego conforme, mesmo que esse nó não esteja no pool original.

  • Programável em tempo real: iRules e políticas avaliam cabeçalhos como X-Intent, X-Context ou X-Goal. Isso transfere a lógica de caminhos pré-definidos para uma interpretação dinâmica e inline.
  • Roteamento orientado ao contexto: ADCs e serviços similares precisam rotear considerando identidade, intenção e contexto, não apenas host ou caminho.
  • Observabilidade semântica: Registros devem mostrar não só o que aconteceu, mas também o motivo: “Agente redirecionado por ultrapassar o limite de latência” traz mais valor que apenas “roteado para o Pool B.”

Tecnologias de rotulagem de dados e ferramentas similares apoiam essa transição ao identificar e classificar o contexto das solicitações em tempo real, facilitando o roteamento semântico e a observabilidade.

Carga mal-intencionada no gráfico de políticas

Preparando a infraestrutura empresarial para arquiteturas baseadas em agentes

Agentes de IA não operam isoladamente. Eles se integram a sistemas legados, acessam APIs tradicionais, manipulam a lógica de negócios em bancos de dados empresariais e executam funções em backends monolíticos e microsserviços. Para as empresas, isso significa que você não pode começar do zero, precisa evoluir.

A realidade: Os agentes se conectam com tudo

Pilhas empresariais combinam:

  • APIs SOAP com décadas de uso ainda operam no setor financeiro
  • Serviços RESTful por trás das aplicações web
  • Filas de mensagens para sistemas de inventário assíncronos
  • Microsserviços para ambiente nativo da nuvem
  • APIs SaaS com limites de taxa e autenticação avançada
  • LLMs e agentes ajustados

Os agentes precisam aprender a atuar em toda a estrutura. E sua infraestrutura deve mediar essa interação em tempo real, aplicando políticas conscientes do contexto.

O que as equipes empresariais devem preparar

1. Ofereça sistemas internos por meio de interfaces que entendem sua intenção

Os agentes não querem cinco endpoints, querem um objetivo claro. Forneça funcionalidades de negócio (como “obter status do pedido”) por meio de camadas de abstração ou composições de API que os agentes possam acessar via um único ponto de entrada semântico.

Etapa de preparação: Use gateways de API ou malhas de serviço para consolidar endpoints com foco em tarefas, garantindo contratos claros de entrada e saída.

2. Instrumento para analisar o contexto, não só as métricas

O registro tradicional foca no método, caminho e tempo de resposta. Mas os agentes priorizam:

  • Qual foi a tarefa
  • Qual fallback tentou
  • Se alcançamos a meta

Passo preparatório: Adote ferramentas de observabilidade semântica que etiquetam o tráfego com tags como X-Intent, X-Task-Type e X-Agent-Outcome.

3. Suportar a avaliação em tempo real de políticas incorporadas

Os agentes incorporam instruções de fallback, preferências de tempo limite e exigências de segurança na solicitação. A infraestrutura atual descarta esses dados.

Etapa de preparação: Amplie as políticas de tráfego para analisar e agir com base nos metadados do agente (por exemplo, X-Route-Preference, X-Fallback-Order, X-Data-Class). Comece usando iRules ou scripts similares em tempo de execução.

4. Revisar controle de acesso e governança

Os agentes agem de forma autônoma. Você precisa entender:

  • Qual agente está representando quem
  • Quais ferramentas ele consegue acessar
  • Quais escopos de dados ele pode acessar

Etapa de preparação: Integre o acesso baseado em identidade e controles de política baseados em atributos (ABAC), não apenas listas de permissões de IP ou RBAC estático.

5. Separar a lógica de fallback e de nova tentativa

Infraestrutura e agentes não devem concorrer para se recuperar. Deixe um focar nos objetivos de execução; o outro, garantir as proteções sistêmicas.

Etapa de preparação: Separe claramente o escopo de fallback do agente (o que eles controlam) do failover da infraestrutura (o que você administra). Estabeleça regras de negociação e condições para substituição.

Conclusão

À medida que a IA evolui de modelos isolados para agentes autônomos, sua empresa enfrenta um ponto estratégico decisivo. Esses agentes não atuarão em ambientes novos — vão se integrar com suas aplicações atuais, acessar APIs legadas e influenciar decisões em sistemas empresariais essenciais. Você precisa se preparar agora para apoiá-los, não apenas com ferramentas novas, mas repensando como sua arquitetura gerencia intenção, execução e governança.

Este não é o momento para trocar tudo. É um momento de convergência — quando sistemas tradicionais e comportamentos emergentes de agentes precisam operar juntos com precisão e propósito.

As arquiteturas de agentes estão chegando. Empresas que se prepararem agora não apenas acompanharão, mas liderarão.

Miniatura de Lori MacVittie
Lori MacVittie
Publicado em 01 de julho de 2025

Conecte-se com F5

F5 Labs

O que há de mais moderno em inteligência de ameaças a aplicativos.

DevCentral

A comunidade F5 para fóruns de discussão e artigos de especialistas.

Sala de redação da F5

Notícias, blogs F5 e muito mais.