BLOG

Récupération-Génération augmentée (RAG) pour les usines d'IA

Miniature de Hunter Smit
Chasseur Smit
Publié le 24 octobre 2024

Dans le paysage technologique actuel en évolution rapide, le déploiement et l’opérationnalisation de l’IA sont devenus des différenciateurs cruciaux pour les entreprises. Alors que les entreprises exploitent la puissance de l’IA pour améliorer la prise de décision et l’efficacité ou développent des produits différenciants avec l’IA, les usines d’IA sont devenues un modèle fondamental. Au cœur des usines d’IA se trouve la récupération-génération augmentée (RAG), l’un des sept éléments constitutifs de l’IA et celui qui permet aux résultats de l’IA d’être contextuellement conscients, plus précis et opportuns.

Plus tôt dans notre série sur les usines d’IA, nous avons défini une usine d’IA comme un investissement massif en matière de stockage, de réseau et de calcul répondant à des exigences de formation et d’inférence à haut volume et à hautes performances. Dans cet article, nous aborderons deux des éléments constitutifs de l’IA que nous avons définis : Gestion du RAG et du corpus RAG.

Comprendre l'usine d'IA

Comme une usine de fabrication traditionnelle, une usine d’IA est conçue pour créer des résultats et des modèles d’IA via une infrastructure méticuleusement orchestrée de serveurs, de GPU, de DPU et de stockage. En prenant en charge la formation et l’inférence, les usines d’IA sont essentielles pour développer des applications d’IA à grande échelle. Cependant, l’intégration du RAG pour améliorer la pertinence contextuelle de ses résultats libère le véritable potentiel d’une usine d’IA.

Qu'est-ce que la génération augmentée par récupération, également appelée RAG ?

Avant de plonger dans le vif du sujet, définissons la récupération-génération augmentée : RAG est une technique d’IA qui intègre des données propriétaires pour compléter les modèles d’IA et fournir des résultats d’IA contextuellement sensibles. Les déploiements d’applications étant de plus en plus distribués, hébergés dans des environnements hybrides et multicloud , les données d’une entreprise sont partout. La question se pose pour les organisations qui souhaitent exploiter l’avantage stratégique de leurs données pour l’IA : comment connecter les données pertinentes pour augmenter les entrées dans les modèles d’IA tels que les grands modèles linguistiques (LLM) ? Les organisations se tournent vers RAG pour résoudre ce problème et créer des autoroutes sécurisées entre le modèle d’IA et les silos de données distribués. Cela permet d'accéder aux informations les plus récentes, ce qui permet d'obtenir des résultats opportuns, contextuellement pertinents et plus précis. Sans cela, même les modèles d’IA les plus perfectionnés n’ont pas accès aux informations les plus récentes, qui changent fréquemment dès que la formation est terminée.

Quels sont quelques exemples ? Deux exemples à prendre en compte sont les véhicules autonomes basés sur la vision et les LLM lorsqu’ils ont des hallucinations ou font des suppositions à partir du manque de pertinence contextuelle d’une demande.

Pour les véhicules autonomes, l'inférence doit inclure des données en temps réel basées sur l'emplacement du véhicule et l'environnement en constante évolution qui l'entoure pour naviguer en toute sécurité dans les rues avec des piétons, des cyclistes et d'autres automobiles. Pour les LLM, et en utilisant un exemple de chatbot de support client, l'accès aux informations sur les produits telles que les journaux des modifications, les bases de connaissances, l'état du système et la télémétrie, associé à des informations client uniques telles que les tickets d'assistance, l'historique des achats et les profils clients, transforme les réponses LLM génériques en résultats précieux.

Diagramme de stockage de la boule de feu

Les environnements hybrides et multicloud deviennent de plus en plus complexes et les déploiements de stockage sont de plus en plus cloisonnés dans des emplacements disparates. Chez F5, nous appelons ce phénomène la « boule de feu ».

RAG pour les usines d'IA

Dans le contexte des usines d'IA, RAG élève les capacités d'inférence de base des modèles d'IA fondamentaux en extrayant un contexte supplémentaire des bases de données vectorielles et des référentiels de contenu, qui sont ensuite utilisés pour générer des réponses enrichies en contexte. Au sein d'une usine d'IA, la couche d'orchestration de RAG gère les interactions complexes entre le modèle d'IA et les services d'augmentation, garantissant une intégration transparente des données supplémentaires dans les flux de travail d'IA.

Par exemple, dans le scénario de support client mentionné ci-dessus, RAG peut accéder et intégrer des données provenant de diverses bases de données et sources pertinentes. Cela produit des résultats d’IA extrêmement pertinents. En intégrant RAG dans le cadre de l'usine d'IA, les entreprises peuvent améliorer la qualité et la rapidité de leurs réponses d'inférence, favorisant ainsi une prise de décision et une efficacité opérationnelle plus efficaces.

diagramme de récupération-génération augmentée

L'architecture de référence de l'IA de F5 mettant en évidence RAG, l'un des sept éléments constitutifs de l'IA nécessaires à la réussite des infrastructures d'IA à grande échelle.

Gestion de corpus RAG pour les usines d'IA

RAG Corpus Management se concentre sur l'ingestion et le prétraitement des données essentiels pour fournir des inférences avec RAG. Cela implique une série d’étapes, notamment la normalisation des données, la tokenisation, l’intégration et le remplissage des bases de données vectorielles, pour garantir que le contenu est préparé de manière optimale pour les appels RAG.

Au sein d’une usine d’IA, ce processus commence par la normalisation de divers formats de données pour créer un ensemble de données cohérent et structuré. Ensuite, des intégrations sont générées pour convertir ces données dans un format que les modèles d’IA peuvent interroger. Les données préparées sont insérées dans des bases de données vectorielles, des graphiques de connaissances et des référentiels de contenu, ce qui les rend facilement accessibles pour une récupération en temps réel lors de l'inférence. En garantissant que les données sont propres, structurées et récupérables, RAG Corpus Management améliore l'efficacité globale et la précision des résultats de l'IA. Ce processus est essentiel pour les entreprises qui souhaitent maintenir des réponses d’IA de haute qualité et contextuellement enrichies.

diagramme de gestion de rag-corpus

RAG Corpus Management est l’un des sept éléments constitutifs de l’IA que F5 a définis pour une architecture d’IA réussie.

Le RAG s’applique-t-il uniquement aux usines d’IA ?

Bien que RAG soit un élément de base pour les usines d'IA, il est nécessaire pour toutes les tailles de déploiements de modèles d'IA. Étant donné que les modèles d’IA fondamentaux (par exemple, GPT, Llama) sont formés sur des informations publiques, le déploiement d’un modèle fondamental n’offre pas aux organisations un avantage concurrentiel suffisamment élevé par rapport aux autres organisations déployant le même modèle. L'intégration de données propriétaires et non publiques via RAG est essentielle pour toute organisation, quelle que soit la taille de déploiement de l'IA, pour compléter les demandes avec leurs données. Un exemple s'alignerait sur le chatbot de support client et l'exigence d'une application de support alimentée par LLM ayant accès aux informations spécifiques au produit et au client pour fournir une solution utile. Même avec des modèles de formation ou de réglage fin, l'accès à des données en constante évolution est nécessaire pour obtenir des résultats plus précis.

Création d'autoroutes de données sécurisées pour l'activation de RAG

Alors que les organisations continuent d’investir dans l’IA pour stimuler l’innovation et l’efficacité opérationnelle, l’importance du RAG au sein des usines d’IA ne peut être surestimée. En améliorant la connaissance contextuelle, la précision et la rapidité, RAG garantit que les modèles d’IA fournissent des résultats à la fois plus pertinents et plus fiables. Pour les entreprises cherchant à créer des intégrations sécurisées entre leurs silos de données et leurs usines d'IA, F5 Distributed Cloud Network Connect fournit des autoroutes modernes : connectant de manière sécurisée les emplacements de données d'entreprise propriétaires, offrant un accès restreint, simplifiant la mise en réseau et offrant un stockage et une mobilité des données entre les zones et les régions.

L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .