En el panorama tecnológico actual en rápida evolución, la implementación y la puesta en funcionamiento de la IA se han convertido en diferenciadores cruciales para las empresas. A medida que las empresas aprovechan el poder de la IA para mejorar la toma de decisiones y la eficiencia o desarrollan productos diferenciadores con IA, las fábricas de IA han surgido como un modelo fundamental. En el corazón de las fábricas de IA se encuentra la Generación Aumentada por Recuperación (RAG), uno de los siete componentes básicos de la IA y el que permite que los resultados de la IA sean contextualmente conscientes, más precisos y oportunos.
Anteriormente en nuestra serie sobre fábricas de IA, definimos una fábrica de IA como una inversión masiva en almacenamiento, redes y computación que satisface requisitos de inferencia y capacitación de alto volumen y alto rendimiento. En este artículo, analizaremos dos de los componentes básicos de la IA que definimos: Gestión de corpus RAG y RAG.
Al igual que una planta de fabricación tradicional, una fábrica de IA está diseñada para generar resultados y modelos de IA a través de una infraestructura meticulosamente orquestada de servidores, GPU, DPU y almacenamiento. Las fábricas de IA, que respaldan el entrenamiento y la inferencia, son cruciales para desarrollar aplicações de IA a escala. Sin embargo, la incorporación de RAG para mejorar la relevancia contextual de sus resultados libera el verdadero potencial de una fábrica de IA.
Antes de profundizar en el tema, definamos la generación aumentada por recuperación: RAG es una técnica de IA que incorpora datos propietarios para complementar los modelos de IA y ofrecer resultados de IA conscientes del contexto. A medida que las implementaciones de aplicação se vuelven más distribuidas y alojadas en entornos híbridos y multicloud , los datos de una empresa están en todas partes. La pregunta que surge para las organizaciones que quieren aprovechar la ventaja estratégica de sus datos para la IA es: ¿cómo conectamos datos relevantes para aumentar las entradas en modelos de IA como los modelos de lenguaje grande (LLM)? Las organizaciones están recurriendo a RAG para resolver esto y crear carreteras seguras desde el modelo de IA hasta los silos de datos distribuidos. Esto permite el acceso a la información más reciente, lo que hace que los resultados sean oportunos, contextualizados y más precisos. Sin esto, incluso los modelos de IA mejor ajustados no tienen acceso a la información más reciente, que cambia con frecuencia tan pronto como se completa el entrenamiento.
¿Cuales son algunos ejemplos? Dos de los aspectos a tener en cuenta son los vehículos autónomos basados en visión y los LLM cuando alucinan o hacen suposiciones a partir de la falta de relevancia contextual de una solicitud.
En el caso de los vehículos autónomos, la inferencia debe incluir datos en tiempo real basados en la ubicación del vehículo y el entorno en constante cambio que lo rodea para transitar de forma segura por calles con peatones, ciclistas y otros automóviles. Para los LLM, y usando un ejemplo de chatbot de soporte al cliente, el acceso a información del producto como registros de cambios, bases de conocimiento, estado del sistema y telemetría junto con información única del cliente como tickets de soporte, historial de compras y perfiles de clientes transforman las respuestas genéricas de LLM en resultados valiosos.
Los entornos híbridos y multicloud son cada vez más complejos y las implementaciones de almacenamiento están cada vez más aisladas en ubicaciones dispares. En F5, llamamos a este fenómeno la “bola de fuego”.
RAG en el contexto de las fábricas de IA eleva las capacidades básicas de inferencia de los modelos de IA fundamentales extrayendo contexto adicional de bases de datos vectoriales y repositorios de contenido, que luego se utilizan para generar respuestas enriquecidas con contexto. Dentro de una fábrica de IA, la capa de orquestación en RAG gestiona interacciones complejas entre el modelo de IA y los servicios de aumento, lo que garantiza una integración perfecta de datos complementarios en los flujos de trabajo de IA.
Por ejemplo, en el escenario de atención al cliente mencionado anteriormente, RAG puede acceder e incorporar datos de varias bases de datos y fuentes relevantes. Esto da como resultado resultados de IA que son altamente relevantes. Al integrar RAG en el marco de la fábrica de IA, las empresas pueden mejorar la calidad y la puntualidad de sus respuestas de inferencia, impulsando así una toma de decisiones más efectiva y una mayor eficiencia operativa.
Arquitectura de referencia de IA de F5 que destaca RAG, uno de los siete componentes básicos de IA necesarios para el éxito de infraestructuras de IA a gran escala.
La gestión de corpus de RAG se centra en la ingesta de datos y el preprocesamiento esenciales para ofrecer inferencias con RAG. Esto implica una serie de pasos, que incluyen la normalización de datos, la tokenización, la incorporación y el llenado de bases de datos vectoriales, para garantizar que el contenido esté preparado de manera óptima para las llamadas RAG.
Dentro de una fábrica de IA, este proceso comienza con la normalización de varios formatos de datos para crear un conjunto de datos consistente y estructurado. A continuación, se generan incrustaciones para convertir estos datos en un formato que los modelos de IA puedan consultar. Los datos preparados se insertan en bases de datos vectoriales, gráficos de conocimiento y repositorios de contenido, lo que los hace fácilmente accesibles para su recuperación en tiempo real durante la inferencia. Al garantizar que los datos estén limpios, estructurados y recuperables, RAG Corpus Management mejora la eficacia general y la precisión de los resultados de IA. Este proceso es vital para las empresas que buscan mantener respuestas de IA enriquecidas contextualmente y de alta calidad.
RAG Corpus Management es uno de los siete componentes básicos de IA que F5 ha definido para una arquitectura de IA exitosa.
Si bien RAG es un componente fundamental para las fábricas de IA, es necesario para implementaciones de modelos de IA de todos los tamaños. Dado que los modelos de IA fundamentales (por ejemplo, GPT, Llama) se entrenan con información pública, la implementación de un modelo fundamental no proporciona a las organizaciones una ventaja competitiva lo suficientemente alta sobre otras organizaciones que implementan el mismo modelo. La integración de datos propietarios y no públicos a través de RAG es esencial para cualquier organización, con cualquier tamaño de implementación de IA, para complementar las solicitudes con sus datos. Un ejemplo se alinearía con el chatbot de soporte al cliente y el requisito de una aplicación de soporte impulsada por LLM que tenga acceso a información específica del producto y del cliente para brindar una solución útil. Incluso con modelos de entrenamiento o ajuste, se requiere acceso a datos en constante cambio para obtener resultados más precisos.
A medida que las organizaciones continúan invirtiendo en IA para impulsar la innovación y la eficiencia operativa, no se puede exagerar la importancia de RAG dentro de las fábricas de IA. Al mejorar la conciencia contextual, la precisión y la puntualidad, RAG garantiza que los modelos de IA brinden resultados más relevantes y confiables. Para las empresas que buscan crear integraciones seguras entre sus silos de datos y fábricas de IA, F5 Distributed Cloud Network Connect ofrece autopistas modernas que conectan de forma segura ubicaciones de datos corporativos patentados, brindan acceso restringido, simplifican la red y ofrecen almacenamiento y movilidad de datos en todas las zonas y regiones.
El enfoque de F5 en la IA no termina aquí: explore cómo F5 protege y distribuye aplicaciones de IA en todas partes .
¿Está interesado en aprender más sobre las fábricas de IA? Explora otros dentro de nuestra serie de blogs sobre fábricas de IA: