Esta postagem do blog faz parte de uma série sobre fábricas de IA. Quando terminar, explore as outras postagens da série.
Quando o ChatGPT foi lançado em novembro de 2022, as perguntas que fizemos e os prompts que inserimos eram simples: "Conte-me uma história sobre X" e "Escreva uma narrativa entre a pessoa A e a pessoa B sobre o tópico Z". Por meio dessas perguntas e interações iniciais com o GPT-3.5 na época, tentávamos identificar como essa nova tecnologia em alta impactaria nossa vida cotidiana. Agora, no final de 2024, a IA complementa nossas vidas: nos ajudando a depurar e escrever códigos, compilar e resumir dados e dirigir veículos autônomos, para citar apenas alguns. Esses são resultados de uma fábrica de IA moderna, e estamos apenas no começo.
Este artigo, o primeiro de uma série sobre fábricas de IA, explora os componentes de uma fábrica de IA e como os diferentes elementos trabalham juntos para gerar soluções orientadas por IA em escala.
Em meio à evolução da IA, o conceito de fábrica de IA surgiu como uma analogia de como os modelos e serviços de IA são criados, refinados e implantados. Assim como uma fábrica tradicional que pega materiais e os transforma em produtos acabados, uma fábrica de IA é um grande investimento em armazenamento, rede e computação que atende a requisitos de treinamento e inferência de alto volume e alto desempenho.
Dentro dessas fábricas, redes de servidores, unidades de processamento gráfico (GPUs), unidades de processamento de dados (DPUs) e hardware especializado trabalham em conjunto para processar grandes quantidades de dados, executando algoritmos complexos que treinam modelos de IA para atingir altos níveis de precisão e eficiência. Essas infraestruturas são meticulosamente projetadas para lidar com o imenso poder computacional necessário para treinar modelos em larga escala e implantá-los para inferência em tempo real. Eles incorporam soluções avançadas de armazenamento para gerenciar e recuperar grandes conjuntos de dados, garantindo um fluxo de dados perfeito.
O balanceamento de carga e a otimização de rede maximizam o desempenho e a utilização de recursos, evitando gargalos e garantindo a escalabilidade. Essa orquestração de componentes de hardware e software permite que as fábricas de IA produzam modelos de IA de ponta e os refinem continuamente, adaptando-se a novos dados e requisitos em evolução. Em última análise, uma fábrica de IA incorpora a industrialização do desenvolvimento de IA, fornecendo a infraestrutura robusta necessária para dar suporte à próxima geração de aplicativos inteligentes.
Como disse o CEO da NVIDIA, Jensen Huang, no Salesforce Dreamforce 2024 : "Em nenhum momento da história a tecnologia de computadores evoluiu mais rápido do que a Lei de Moore ", continuando: "Estamos evoluindo muito mais rápido do que a Lei de Moore e, sem dúvida, somos facilmente transformados em Lei de Moore ao quadrado".
A implantação de IA em escala está se tornando cada vez mais essencial, pois os investimentos em IA servem como diferenciais de mercado cruciais e impulsionadores da eficiência operacional. Para conseguir isso, as organizações precisam criar e refinar modelos continuamente e integrar repositórios de conhecimento e dados em tempo real. O conceito de fábrica de IA destaca que a IA deve ser um investimento contínuo e não um esforço único. Ele fornece uma estrutura para que as organizações operacionalizem suas iniciativas de IA, tornando-as mais adaptáveis às mudanças nas demandas de negócios e mercado.
Com base em nossa experiência em ajudar clientes a implantar frotas de aplicativos modernos, seguros e de alto desempenho em escala, a F5 desenvolveu uma Estrutura de Arquitetura de Referência de IA. Considerando que os aplicativos de IA são os mais modernos dos aplicativos modernos, fortemente conectados por meio de APIs e altamente distribuídos, esta estrutura aborda os desafios críticos de desempenho, segurança e operação essenciais para fornecer aplicativos de IA de ponta.
Dentro de nossa arquitetura de referência, definimos sete blocos de construção de IA necessários para construir uma fábrica de IA abrangente:
Descreve a interação entre um aplicativo front-end e uma API de serviço de inferência; concentra-se no envio de uma solicitação a um modelo de IA e no recebimento de uma resposta. Isso prepara o terreno para interações mais complexas.
Melhora a inferência básica adicionando serviços de orquestração de modelos de linguagem ampla (LLM) e aumento de recuperação. Ele detalha a recuperação de contexto adicional de bancos de dados de vetores e repositórios de conteúdo, que é então usado para gerar uma resposta enriquecida em contexto.
Foca nos processos de ingestão de dados necessários para inferência com geração aumentada de recuperação (RAG). Inclui normalização de dados, incorporação e preenchimento de bancos de dados vetoriais, preparando conteúdo para chamadas RAG.
Tem como objetivo melhorar o desempenho de um modelo existente por meio da interação com o modelo. Ele ajusta o modelo sem reconstruí-lo do zero e enfatiza a coleta de dados de Inferência e Inferência com RAG para ajustar os fluxos de trabalho.
Envolve a construção de um novo modelo do zero, embora possa usar pontos de verificação anteriores (retreinamento). Abrange coleta de dados, pré-processamento, seleção de modelo, seleção de método de treinamento, treinamento e validação/teste. Este processo iterativo visa criar modelos robustos adaptados a tarefas específicas.
Conecta a camada de orquestração do LLM a fontes externas, como bancos de dados e sites. Ele integra dados externos em solicitações de inferência, mas não inclui tarefas de pré-processamento de documentos, como fragmentação e incorporação.
Abrange fluxos de trabalho para desenvolver, manter, configurar, testar e implantar componentes de aplicativos de IA. Inclui aplicativos front-end, orquestração LLM, gerenciamento de controle de origem e pipelines de CI/CD.
Juntos, esses blocos de construção formam a espinha dorsal de uma fábrica de IA. Cada um desempenha um papel crucial na criação, implantação e refinamento dos resultados da IA. Além disso, as iniciativas de fábrica de IA tendem a se prestar à propriedade das estratégias de implementação (em vez de alugá-las ou terceirizá-las) para a maioria dos blocos de construção, resultando na seleção de modelos de implantação auto-hospedados entre os listados abaixo.
Para cada um desses blocos de construção, os clientes devem selecionar um modelo de implantação e uma estratégia de implementação apropriados (próprio, alugado ou terceirizado), definindo a arquitetura de referência ideal para atingir os objetivos de negócios de suas iniciativas de IA. Aqui estão os quatro principais:
Os recursos do F5 nos quais você confia diariamente para entrega e segurança de aplicativos são os mesmos recursos essenciais para uma fábrica de IA bem projetada. O F5 BIG-IP Local Traffic Manager , emparelhado com o F5 rSeries e o hardware VELOS desenvolvido especificamente, permite ingestão de dados de alto desempenho para treinamento de IA. O F5 Distributed Cloud Network Connect para redes multicloud seguras conecta locais de dados distintos, criando um canal seguro de dados proprietários para modelos de IA para RAG .
O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .
Interessado em aprender mais sobre fábricas de IA? Explore outros temas em nossa série de blogs sobre fábrica de IA: