Ao longo da série de fábricas de IA da F5, apresentamos e definimos fábricas de IA, exploramos seus elementos e como a entrega de aplicativos e as escolhas de segurança impactam o desempenho. Neste artigo, o quinto da nossa série, exploramos o papel crítico que a rede multinuvem desempenha no fornecimento de inferência e no suporte à movimentação de dados para uma fábrica de IA, que a F5 define como um grande investimento em armazenamento, rede e computação que atende a requisitos de treinamento e inferência de alto volume e alto desempenho.
Diagrama de Arquitetura de Referência de IA do F5
Pontos de interconexão distribuídos estão no centro das fábricas de IA e impulsionam a operação de armazenamento, rede e infraestrutura de computação. À medida que as empresas projetam suas fábricas de IA, muitos serviços provavelmente estarão fisicamente localizados no mesmo data center ou nas proximidades. No entanto, há serviços que podem ser distribuídos geograficamente. Serviços como aplicativos front-end, serviços de inferências e modelos necessários fornecerão o melhor desempenho se forem arquitetados para ficarem perto de onde precisam ser consumidos. Além disso, os dados do corpus de conhecimento de Recuperação-Geração Aumentada (RAG) podem ser envolvidos se o design exigir RAG, mas por enquanto vamos nos concentrar no front-end, nos serviços de inferência e na implantação do modelo.
Serviços de inferência e aplicações front-end
De acordo com a lista do Google de 185 casos de uso de IA generativa no mundo real das principais organizações do mundo, observamos que muitas dessas empresas dependem de localizações estratégicas para fornecer cargas de trabalho de IA a clientes globais. A arquitetura distribuída de uma fábrica de IA deve ser um foco e uma curadoria ao pensar na experiência do usuário final. No relatório State of Application Strategy de 2024 da F5, foi descoberto que 88% das organizações operam em um modelo de nuvem híbrida. Também foi relatado que 94% dos entrevistados enfrentam desafios multicloud.
Então, qual é a melhor maneira de permitir uma comunicação segura e otimizada entre as fábricas de IA e as instâncias onde a inferência é consumida? A resposta gira em torno do networking. Para entender o porquê, vamos rever uma palavra da moda do setor que foi amplamente esquecida fora do mundo dos provedores de serviços: redes definidas por software (SDN), que têm sido fundamentais para a segurança das arquiteturas 3GPP, como 4G e 5G. O sucesso de segurança das arquiteturas 3GPP pode ser atribuído à adesão ao isolamento rigoroso de aplicativos.
As SDNs oferecem uma solução poderosa ao implementar princípios de confiança zero das camadas 2 e 3, onde o tráfego não pode ser roteado para um aplicativo a menos que seja verificado e processado por meio de uma infraestrutura de roteamento determinística definida por software. Isso garante que cada componente de um aplicativo possa ser dimensionado de forma independente, tanto local quanto globalmente, para atingir desempenho e segurança ideais. Além disso, as SDNs roteiam o tráfego de aplicativos por nome em vez de endereço IP, atenuando problemas como sobreposição de endereços IP e permitindo o dimensionamento perfeito de aplicativos e soluções de segurança em diferentes regiões e ambientes. O roteamento e o tunelamento explícitos dentro de SDNs também fornecem uma defesa robusta contra ataques potenciais, pois o acesso não autorizado requer propriedade de recursos dentro da SDN, bem como conformidade com protocolos de comunicação rigorosos.
Grandes empresas de telecomunicações de Nível 1 têm demonstrado a eficácia desses princípios em escala, e faz sentido aplicá-los a cargas de trabalho ainda maiores em redes multinuvem (MCN) para fábricas de IA.
Parece fácil, certo? O smartphone em que você está lendo isso provavelmente tem uma GPU, conectividade 5G e uma senha. Você deve estar pronto para contratar segurança privada, certo? Bem, não exatamente. Por enquanto, vamos analisar três pontos. No entanto, saiba que isso é apenas o começo e muito mais será descoberto à medida que você projeta e modela o cenário de ameaças para sua fábrica de IA.
Primeiro, vamos falar sobre velocidade. Quando a IA generativa fez seu primeiro sucesso com o ChatGPT no final de 2022, estávamos focados em dados de texto. No entanto, em 2024, veremos cada vez mais casos de uso em torno de outras modalidades, como imagens, vídeo, texto e dados, combinados aos modelos de camada de fluxo e aplicação com base em especializações. Em uma arquitetura de fábrica de IA distribuída, pode não ser desejável ou viável implantar todos os modelos em todos os lugares. Pode depender de fatores como gravidade de dados, gravidade de energia ou requisitos de computação. É aqui que você pode selecionar a interconexão de rede de alta velocidade para preencher lacunas e mitigar problemas de desempenho que você enfrenta ao mover serviços dependentes uns dos outros.
Vamos também visitar o roubo de modelos, um dos 10 principais riscos da OWASP para grandes modelos de linguagem (LLMs) e aplicativos de IA generativa . Qualquer empresa que queira aproveitar a IA generativa para obter uma vantagem competitiva incorporará sua propriedade intelectual ao sistema. Isso pode ocorrer por meio do treinamento do próprio modelo com dados corporativos ou do ajuste fino de um modelo. Nesses cenários, assim como seus outros sistemas de negócios, sua fábrica de IA está criando valor por meio de um modelo que você deve proteger. Para evitar o roubo de modelos em uma arquitetura distribuída, você deve garantir que esse modelo, as atualizações do modelo e as fontes de dados que o aplicativo precisa acessar sejam criptografados e tenham controles de acesso aplicados.
Por fim, vamos considerar o modelo de negação de serviço, também no OWASP Top 10 para LLMs e aplicativos de IA generativa. À medida que a confiança é conquistada em aplicações de IA, seu uso em sistemas críticos aumenta, seja um sistema de geração de receita significativa para o seu negócio ou algo essencial para a manutenção da vida, como em um cenário de assistência médica. A capacidade de acessar o front-end e a inferência deve ser projetada de modo que qualquer entrada possível seja resiliente, controlada e segura. Esses cenários de acesso podem ser aplicados ao acesso do usuário final, bem como de serviços de inferência até a fábrica principal de IA.
Soluções seguras de rede multicloud permitem a conectividade, a segurança e a visibilidade necessárias para projetar os aspectos distribuídos da arquitetura de fábrica de IA. O F5 Distributed Cloud Network Connect aborda todos os itens acima e muito mais. O Distributed Could Network Connect também oferece soluções exclusivas de ponta para o cliente, permitindo conectividade universal, quer você esteja procurando executar inferência na nuvem pública, em seus próprios data centers ou em data centers colocalizados, ou na ponta em hardware de sua escolha. Implante de forma simples e rápida, e a borda do cliente estabelece conectividade por conta própria.
Projetar sua fábrica de IA não é tarefa fácil, e as empresas querem colher os benefícios da IA o mais rápido possível, garantindo a máxima segurança. Ser capaz de implantar de forma confiável diversas funções seguras da sua fábrica de IA permitirá uma inovação mais rápida, ao mesmo tempo em que libera tempo para focar nos aspectos das fábricas de IA que trazem uma verdadeira diferenciação empresarial e uma vantagem competitiva. Se você quiser descobrir mais sobre redes multicloud, assista à nossa lição do Brightboard ou explore o F5 Distributed Cloud Network Connect .
O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .
Interessado em aprender mais sobre fábricas de IA? Explore as outras postagens do blog da série de fábricas de IA que a F5 publicou até o momento: