BLOG

O que é uma fábrica de IA?

Hunter Smit Miniatura
Caçador Smit
Publicado em 11 de outubro de 2024

Quando o ChatGPT foi lançado em novembro de 2022, as perguntas que fizemos e os prompts que inserimos eram simples: "Conte-me uma história sobre X" e "Escreva uma narrativa entre a pessoa A e a pessoa B sobre o tópico Z". Por meio dessas perguntas e interações iniciais com o GPT-3.5 na época, tentávamos identificar como essa nova tecnologia em alta impactaria nossa vida cotidiana. Agora, no final de 2024, a IA complementa nossas vidas: nos ajudando a depurar e escrever códigos, compilar e resumir dados e dirigir veículos autônomos, para citar apenas alguns. Esses são resultados de uma fábrica de IA moderna, e estamos apenas no começo.

Este artigo, o primeiro de uma série sobre fábricas de IA, explora os componentes de uma fábrica de IA e como os diferentes elementos trabalham juntos para gerar soluções orientadas por IA em escala.

Definindo fábricas de IA

Em meio à evolução da IA, o conceito de fábrica de IA surgiu como uma analogia de como os modelos e serviços de IA são criados, refinados e implantados. Assim como uma fábrica tradicional que pega materiais e os transforma em produtos acabados, uma fábrica de IA é um grande investimento em armazenamento, rede e computação que atende a requisitos de treinamento e inferência de alto volume e alto desempenho.

Dentro dessas fábricas, redes de servidores, unidades de processamento gráfico (GPUs), unidades de processamento de dados (DPUs) e hardware especializado trabalham em conjunto para processar grandes quantidades de dados, executando algoritmos complexos que treinam modelos de IA para atingir altos níveis de precisão e eficiência. Essas infraestruturas são meticulosamente projetadas para lidar com o imenso poder computacional necessário para treinar modelos em larga escala e implantá-los para inferência em tempo real. Eles incorporam soluções avançadas de armazenamento para gerenciar e recuperar grandes conjuntos de dados, garantindo um fluxo de dados perfeito.

O balanceamento de carga e a otimização de rede maximizam o desempenho e a utilização de recursos, evitando gargalos e garantindo a escalabilidade. Essa orquestração de componentes de hardware e software permite que as fábricas de IA produzam modelos de IA de ponta e os refinem continuamente, adaptando-se a novos dados e requisitos em evolução. Em última análise, uma fábrica de IA incorpora a industrialização do desenvolvimento de IA, fornecendo a infraestrutura robusta necessária para dar suporte à próxima geração de aplicativos inteligentes.

Por que as fábricas de IA são importantes?

Como disse o CEO da NVIDIA, Jensen Huang, no Salesforce Dreamforce 2024 : "Em nenhum momento da história a tecnologia de computadores evoluiu mais rápido do que a Lei de Moore ", continuando: "Estamos evoluindo muito mais rápido do que a Lei de Moore e, sem dúvida, somos facilmente transformados em Lei de Moore ao quadrado".

A implantação de IA em escala está se tornando cada vez mais essencial, pois os investimentos em IA servem como diferenciais de mercado cruciais e impulsionadores da eficiência operacional. Para conseguir isso, as organizações precisam criar e refinar modelos continuamente e integrar repositórios de conhecimento e dados em tempo real. O conceito de fábrica de IA destaca que a IA deve ser um investimento contínuo e não um esforço único. Ele fornece uma estrutura para que as organizações operacionalizem suas iniciativas de IA, tornando-as mais adaptáveis às mudanças nas demandas de negócios e mercado.

Componentes de uma fábrica de IA

Com base em nossa experiência em ajudar clientes a implantar frotas de aplicativos modernos, seguros e de alto desempenho em escala, a F5 desenvolveu uma Estrutura de Arquitetura de Referência de IA. Considerando que os aplicativos de IA são os mais modernos dos aplicativos modernos, fortemente conectados por meio de APIs e altamente distribuídos, esta estrutura aborda os desafios críticos de desempenho, segurança e operação essenciais para fornecer aplicativos de IA de ponta.

Sete blocos de construção de IA

Dentro de nossa arquitetura de referência, definimos sete blocos de construção de IA necessários para construir uma fábrica de IA abrangente:

1. Inferência

Descreve a interação entre um aplicativo front-end e uma API de serviço de inferência; concentra-se no envio de uma solicitação a um modelo de IA e no recebimento de uma resposta. Isso prepara o terreno para interações mais complexas.

inferência

2. Geração aumentada de recuperação

Melhora a inferência básica adicionando serviços de orquestração de modelos de linguagem ampla (LLM) e aumento de recuperação. Ele detalha a recuperação de contexto adicional de bancos de dados de vetores e repositórios de conteúdo, que é então usado para gerar uma resposta enriquecida em contexto.

diagrama de aumento de recuperação

3. Gestão do corpus RAG

Foca nos processos de ingestão de dados necessários para inferência com geração aumentada de recuperação (RAG). Inclui normalização de dados, incorporação e preenchimento de bancos de dados vetoriais, preparando conteúdo para chamadas RAG.

diagrama de trapos

4. Afinação

Tem como objetivo melhorar o desempenho de um modelo existente por meio da interação com o modelo. Ele ajusta o modelo sem reconstruí-lo do zero e enfatiza a coleta de dados de Inferência e Inferência com RAG para ajustar os fluxos de trabalho.

diagrama de ajuste fino

5. TREINAMENTO

Envolve a construção de um novo modelo do zero, embora possa usar pontos de verificação anteriores (retreinamento). Abrange coleta de dados, pré-processamento, seleção de modelo, seleção de método de treinamento, treinamento e validação/teste. Este processo iterativo visa criar modelos robustos adaptados a tarefas específicas.

diagrama de treinamento

6. Integração de serviços externos

Conecta a camada de orquestração do LLM a fontes externas, como bancos de dados e sites. Ele integra dados externos em solicitações de inferência, mas não inclui tarefas de pré-processamento de documentos, como fragmentação e incorporação.

diagrama de serviços externos

7. Desenvolvimento

Abrange fluxos de trabalho para desenvolver, manter, configurar, testar e implantar componentes de aplicativos de IA. Inclui aplicativos front-end, orquestração LLM, gerenciamento de controle de origem e pipelines de CI/CD.

desenvolvimento

Juntos, esses blocos de construção formam a espinha dorsal de uma fábrica de IA. Cada um desempenha um papel crucial na criação, implantação e refinamento dos resultados da IA. Além disso, as iniciativas de fábrica de IA tendem a se prestar à propriedade das estratégias de implementação (em vez de alugá-las ou terceirizá-las) para a maioria dos blocos de construção, resultando na seleção de modelos de implantação auto-hospedados entre os listados abaixo.

Quatro modelos de implantação

Para cada um desses blocos de construção, os clientes devem selecionar um modelo de implantação e uma estratégia de implementação apropriados (próprio, alugado ou terceirizado), definindo a arquitetura de referência ideal para atingir os objetivos de negócios de suas iniciativas de IA. Aqui estão os quatro principais:

  • O AI-SaaS envolve o uso de uma implementação de Software como Serviço (SaaS) de um serviço de inferência, onde o provedor de serviços gerencia a infraestrutura, as atualizações do modelo e o dimensionamento. Os usuários interagem com o serviço por meio de APIs sem se preocupar com manutenção subjacente. Este modelo de implantação é ideal para empresas que buscam facilidade de uso e integração rápida sem sobrecarga significativa. Ele também permite rápida escalabilidade e acesso aos recursos e melhorias mais recentes.
  • A implantação hospedada na nuvem envolve o gerenciamento do serviço de inferência usando um provedor de serviços de nuvem (CSP) como Infraestrutura como Serviço (IaaS) ou Plataforma como Serviço (PaaS). Neste modelo, o usuário é responsável por gerenciar o serviço, incluindo configuração, dimensionamento e manutenção, mas se beneficia da infraestrutura e das ferramentas robustas do CSP. Este modelo oferece flexibilidade e controle, tornando-o adequado para organizações com requisitos específicos e conhecimento técnico. Ele também permite integração perfeita com outros serviços e ferramentas nativos da nuvem.
  • A implantação auto-hospedada requer o gerenciamento do serviço de inferência dentro de um data center privado autogerenciado ou serviço de colocation. Este modelo oferece o mais alto nível de controle e personalização, permitindo que as organizações adaptem a infraestrutura e o serviço às suas necessidades específicas. No entanto, também exige recursos significativos para manutenção, atualizações e dimensionamento. Ele geralmente é escolhido por organizações com requisitos rigorosos de segurança, conformidade ou desempenho que não podem ser atendidos por soluções baseadas em nuvem.
  • A implantação hospedada na borda envolve a execução de serviços de IA ou aprendizado de máquina (ML) na borda, como em um quiosque de varejo, dispositivo de IoT ou outros ambientes localizados. Este modelo reduz a latência ao processar dados próximos à sua origem, tornando-o ideal para aplicações em tempo real e cenários onde a conectividade à Internet é limitada ou intermitente. Ele exige gerenciamento robusto de hardware e software local, mas oferece benefícios significativos para casos de uso que exigem tomada de decisão imediata e localizada. A implantação hospedada na borda é particularmente valiosa em setores como varejo, manufatura e saúde.

A F5 entrega e protege aplicativos de IA em qualquer lugar

Os recursos do F5 nos quais você confia diariamente para entrega e segurança de aplicativos são os mesmos recursos essenciais para uma fábrica de IA bem projetada. O F5 BIG-IP Local Traffic Manager , emparelhado com o F5 rSeries e o hardware VELOS desenvolvido especificamente, permite ingestão de dados de alto desempenho para treinamento de IA. O F5 Distributed Cloud Network Connect para redes multicloud seguras conecta locais de dados distintos, criando um canal seguro de dados proprietários para modelos de IA para RAG .

O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .