No cenário tecnológico de rápida evolução de hoje, a implantação e a operacionalização da IA se tornaram diferenciais cruciais para as empresas. À medida que as empresas aproveitam o poder da IA para melhorar a tomada de decisões e a eficiência ou desenvolvem produtos diferenciadores com IA, as fábricas de IA surgiram como um modelo fundamental. No centro das fábricas de IA está a Geração Aumentada de Recuperação (RAG), um dos sete blocos de construção da IA e aquele que permite que os resultados da IA sejam contextualmente conscientes, mais precisos e oportunos.
Anteriormente em nossa série sobre fábricas de IA, definimos uma fábrica de IA como um grande investimento em armazenamento, rede e computação que atende a requisitos de treinamento e inferência de alto volume e alto desempenho. Neste artigo, discutiremos dois dos blocos de construção de IA que definimos: RAG e Gestão de Corpus RAG.
Assim como uma fábrica tradicional, uma fábrica de IA é projetada para criar saídas e modelos de IA por meio de uma infraestrutura meticulosamente orquestrada de servidores, GPUs, DPUs e armazenamento. Dando suporte ao treinamento e à inferência, as fábricas de IA são cruciais para o desenvolvimento de aplicações de IA em escala. No entanto, incorporar o RAG para melhorar a relevância contextual de seus resultados desbloqueia o verdadeiro potencial de uma fábrica de IA.
Antes de começarmos, vamos definir a Geração Aumentada de Recuperação: RAG é uma técnica de IA que incorpora dados proprietários para complementar modelos de IA e fornecer resultados de IA contextualmente conscientes. À medida que as implantações de aplicativos estão se tornando mais distribuídas, hospedadas em ambientes híbridos e multinuvem , os dados de uma empresa estão em todos os lugares. A questão que surge para organizações que desejam desbloquear a vantagem estratégica de seus dados para IA é: como conectamos dados relevantes para aumentar as entradas em modelos de IA, como modelos de grande linguagem (LLMs)? As organizações estão recorrendo ao RAG para resolver isso e criar rodovias seguras do modelo de IA para os silos de dados distribuídos. Isso permite o acesso às informações mais recentes, tornando os resultados oportunos, contextualizados e mais precisos. Sem isso, mesmo os modelos de IA mais bem ajustados não têm acesso às informações mais recentes, que mudam frequentemente assim que o treinamento é concluído.
Quais são alguns exemplos? Dois a serem considerados são os veículos autônomos baseados em visão e os LLMs quando eles alucinam ou fazem suposições a partir da falta de relevância contextual de uma solicitação.
Para veículos autônomos, a inferência deve incluir dados em tempo real com base na localização do veículo e no ambiente em constante mudança ao seu redor para navegar com segurança nas ruas com pedestres, ciclistas e outros automóveis. Para LLMs, e usando um exemplo de chatbot de suporte ao cliente, o acesso a informações do produto, como registros de alterações, bases de conhecimento, status do sistema e telemetria, combinados com informações exclusivas do cliente, como tíquetes de suporte, histórico de compras e perfis de clientes, transformam respostas genéricas de LLM em resultados valiosos.
Ambientes híbridos e multinuvem estão se tornando cada vez mais complexos e as implantações de armazenamento estão cada vez mais isoladas em locais distintos. Na F5, chamamos esse fenômeno de “bola de fogo”.
O RAG no contexto de fábricas de IA eleva as capacidades básicas de inferência de modelos fundamentais de IA ao extrair contexto adicional de bancos de dados vetoriais e repositórios de conteúdo, que são então utilizados para gerar respostas enriquecidas por contexto. Em uma fábrica de IA, a camada de orquestração no RAG gerencia interações complexas entre o modelo de IA e os serviços de aumento, garantindo a integração perfeita de dados suplementares nos fluxos de trabalho de IA.
Por exemplo, no cenário de suporte ao cliente mencionado acima, o RAG pode acessar e incorporar dados de vários bancos de dados e fontes relevantes. Isso resulta em resultados de IA altamente relevantes. Ao integrar o RAG à estrutura da fábrica de IA, as empresas podem melhorar a qualidade e a pontualidade de suas respostas de inferência, promovendo assim uma tomada de decisão mais eficaz e eficiência operacional.
Arquitetura de referência de IA da F5 destacando RAG, um dos sete blocos de construção de IA necessários para infraestruturas de IA de grande escala bem-sucedidas.
O RAG Corpus Management se concentra na ingestão de dados e no pré-processamento essenciais para fornecer inferência com o RAG. Isso envolve uma série de etapas, incluindo normalização de dados, tokenização, incorporação e preenchimento de bancos de dados de vetores, para garantir que o conteúdo esteja preparado de forma ideal para chamadas RAG.
Em uma fábrica de IA, esse processo começa com a normalização de vários formatos de dados para criar um conjunto de dados consistente e estruturado. Em seguida, são gerados embeddings para converter esses dados em um formato que os modelos de IA podem consultar. Os dados preparados são inseridos em bancos de dados vetoriais, gráficos de conhecimento e repositórios de conteúdo, tornando-os facilmente acessíveis para recuperação em tempo real durante a inferência. Ao garantir que os dados sejam limpos, estruturados e recuperáveis, o RAG Corpus Management aprimora a eficácia e a precisão gerais dos resultados da IA. Esse processo é vital para empresas que buscam manter respostas de IA de alta qualidade e contextualmente enriquecidas.
O RAG Corpus Management é um dos sete blocos de construção de IA que a F5 definiu para uma arquitetura de IA bem-sucedida.
Embora o RAG seja um componente essencial para fábricas de IA, ele é necessário para implantações de modelos de IA de todos os tamanhos. Considerando que modelos fundamentais de IA (por exemplo, GPT, Llama) são treinados em informações públicas, a implantação de um modelo fundamental não fornece às organizações uma vantagem competitiva alta o suficiente sobre outras organizações que implantam o mesmo modelo. Integrar dados proprietários e não públicos via RAG é essencial para qualquer organização, com qualquer tamanho de implantação de IA, para complementar solicitações com seus dados. Um exemplo se alinharia ao chatbot de suporte ao cliente e à exigência de um aplicativo de suporte com tecnologia LLM que tenha acesso a informações específicas do produto e do cliente para fornecer uma solução útil. Mesmo com modelos de treinamento ou ajuste fino, o acesso a dados em constante mudança é necessário para resultados mais precisos.
À medida que as organizações continuam investindo em IA para impulsionar a inovação e a eficiência operacional, a importância do RAG nas fábricas de IA não pode ser exagerada. Ao aprimorar a conscientização contextual, a precisão e a pontualidade, o RAG garante que os modelos de IA forneçam resultados mais relevantes e confiáveis. Para empresas que buscam criar integrações seguras entre seus silos de dados e fábricas de IA, o F5 Distributed Cloud Network Connect fornece rodovias modernas, conectando com segurança locais de dados corporativos proprietários, fornecendo acesso restrito, simplificando a rede e fornecendo armazenamento e mobilidade de dados entre zonas e regiões.
O foco da F5 em IA não para por aqui: explore como a F5 protege e entrega aplicativos de IA em qualquer lugar .
Interessado em aprender mais sobre fábricas de IA? Explore as outras postagens do blog da série de fábricas de IA que a F5 publicou até o momento: