Meta a récemment dévoilé le troupeau de LLM Llama 4 - Scout, Maverick et Behemoth en avant-première - avec une fenêtre contextuelle de 10 millions de jetons avec Scout. Peu de temps après, sur X, LinkedIn et d'autres forums, les commentaires sur la génération augmentée de récupération (RAG) devenant obsolète ont pris de l'ampleur, suggérant qu'une fenêtre de contexte aussi étendue pourrait rendre RAG inutile. Cependant, nous pensons que RAG continuera d’être un modèle de conception d’IA générative fondamental, compte tenu des nuances des fenêtres de contexte, des données d’entreprise en constante évolution, des magasins de données distribués, des préoccupations réglementaires, des performances du modèle et de la pertinence des applications d’IA à l’échelle de l’entreprise.
Malgré la réussite de Llama 4 dans la prise en charge de 10 millions de fenêtres de contexte de jetons, RAG reste un composant essentiel dans les applications d'IA d'entreprise. Les entreprises fonctionnent souvent avec des ensembles de données dynamiques et en constante évolution stockés sur des systèmes distribués. RAG permet aux modèles d'extraire et d'intégrer les informations les plus récentes et les plus pertinentes de ces vastes magasins de données en temps réel, garantissant que les résultats de l'IA sont à la fois précis et contextuellement pertinents, ce qui est extrêmement unique en fonction de l'organisation, de l'équipe ou de l'utilisateur. La récupération en temps réel est essentielle pour les applications nécessitant des connaissances à jour, telles que le support client, l'analyse de marché et les bases de connaissances.
S’appuyer uniquement sur de grandes fenêtres de contexte sans récupération externe peut être à la fois inefficace et constituer un problème de sécurité. Lorsque les données sont continuellement introduites dans un modèle, il devient plus difficile de contrôler qui peut accéder à ces données, si elles sont stockées en toute sécurité et comment elles peuvent être exposées par inadvertance via les journaux ou les sorties du modèle. Les menaces internes, les messages malveillants ou les fuites accidentelles deviennent plus probables à mesure que le volume de données augmente, et les organisations risquent de violer les mandats de confidentialité ou de conformité si les enregistrements confidentiels sont mal gérés.
En adoptant RAG, les entreprises peuvent récupérer uniquement les données les plus pertinentes pour chaque requête, en s'alignant sur les contraintes réglementaires régionales et sectorielles qui nécessitent souvent une sélection de données hautement corrélées. Cette approche réduit la surface d’attaque tout en garantissant l’application cohérente de politiques telles que les contrôles d’accès basés sur les rôles, le chiffrement en transit et les mécanismes d’audit détaillés. Cette récupération sélective réduit non seulement la charge de calcul, mais renforce également une posture de sécurité robuste en limitant l'exposition des actifs sensibles à ce qui est précisément nécessaire au moment de l'inférence.
Dans les LLM, la fenêtre de contexte indique le nombre maximal de jetons que le modèle peut traiter dans une seule entrée. L’élargissement de cette fenêtre permet au modèle de prendre en compte simultanément des informations plus complètes, ce qui donne lieu à des conversations plus détaillées, à une analyse plus complète et à une personnalisation améliorée. À titre de perspective, un texte brut composé de 100 000 jetons a une taille d'environ 325 Ko ; un contexte de 10 millions de jetons équivaudrait à environ 32 Mo de données textuelles. Cette capacité permet à Llama 4 Scout de gérer de grandes quantités d’informations dans une seule requête.
Bien qu’une fenêtre de contexte étendue offre l’avantage de traiter davantage de données à la fois, elle introduit des défis liés aux performances, à la précision et à l’efficacité du modèle. Le traitement de millions de jetons nécessite des ressources de calcul importantes, ce qui entraîne une latence accrue et des coûts opérationnels plus élevés. À mesure que la longueur du contexte augmente, les modèles peuvent éprouver des difficultés à maintenir l’attention et la pertinence sur l’ensemble de l’entrée, ce qui peut avoir un impact sur la qualité des sorties de l’IA. À ce sujet, Andriy Burkov, Ph.D., auteur et expert reconnu en IA, a écrit sur X : « Le contexte déclaré de 10 M est virtuel car aucun modèle n'a été formé sur des invites de plus de 256 000 jetons. Cela signifie que si vous lui envoyez plus de 256 000 jetons, vous obtiendrez la plupart du temps une sortie de mauvaise qualité.
Bien que des fenêtres de contexte plus larges offrent de nouvelles opportunités, la nécessité d'équilibrer les performances et l'utilisation des ressources est essentielle. Le scénario optimal consiste à présenter toutes les informations pertinentes, mais rien qui ne soit pas nécessaire. En fait, certaines études semblent indiquer que, tout comme pour les humains, donner trop d’informations à un LLM l’empêche de s’identifier et de se concentrer. Pour ceux qui sont intéressés, le livre blanc, Lost in the Middle : Comment les modèles de langage utilisent les contextes longs , explore ce sujet en profondeur.
De nombreuses entreprises trouvent intimidant de connecter en toute sécurité des centaines ou des milliers de magasins de données largement dispersés pour RAG sans compromettre les performances ou la sécurité des données en transit. Le défi de la consolidation des emplacements de stockage sur site, hybrides et multicloud nécessite une structure d'interconnexion mondiale hautes performances telle que celle fournie par F5 Distributed Cloud Services . En garantissant que seuls les points de terminaison LLM autorisés peuvent accéder aux données à l'aide d'un WAF intégré et de contrôles basés sur des politiques, les entreprises réduisent considérablement les risques et les frais généraux associés à la gestion de plusieurs passerelles ou VPN.
En fournissant une approche unifiée de la mise en réseau et de la sécurité, F5 Distributed Cloud Network Connect rationalise les implémentations RAG, permettant aux organisations de connecter de manière transparente des sources de données distribuées pour des sorties LLM plus précises et plus rapides. De plus, avec F5 AI Gateway , les organisations peuvent se protéger contre les attaques par injection rapide qui pourraient violer les limites de sécurité des données pour garantir une approche de défense en profondeur au moment de l'inférence.
Le déploiement de modèles comme Llama 4 Scout, avec sa vaste fenêtre contextuelle, nécessite une infrastructure robuste et efficace. Des proxys hautes performances capables de gérer un débit de données substantiel sont essentiels pour maintenir une faible latence et garantir un fonctionnement transparent. F5 BIG-IP Next pour Kubernetes déployé sur les DPU NVIDIA BlueField-3 offre une solution convaincante dans ce contexte, offrant une gestion du trafic et une sécurité hautes performances adaptées à l'infrastructure d'IA à l'échelle du cloud et aux usines d'IA .
En déchargeant les tâches gourmandes en données sur les DPU , les ressources CPU sont libérées pour les processus application principaux, améliorant ainsi l'efficacité globale du système. Grâce à la prise en charge multi-locataire, plusieurs charges de travail d'IA peuvent fonctionner de manière sécurisée et efficace au sein de la même infrastructure, ce qui s'aligne bien avec les clouds d'IA, les hyperscalers et les fournisseurs de services. De telles capacités sont indispensables pour les usines d’IA qui souhaitent exploiter des modèles avec des fenêtres de contexte étendues tout en maintenant des performances et une sécurité optimales.
Une autre considération importante est que des fenêtres de contexte larges et très variables peuvent entraîner des fluctuations importantes dans la consommation des ressources. Cela met davantage l’accent sur l’équilibrage intelligent des demandes entrantes pour correspondre à la capacité de calcul disponible. Les solutions d’équilibrage de charge avancées et adaptatives aident à répartir ces requêtes volumineuses sur plusieurs clusters ou régions, atténuant ainsi les goulots d’étranglement et maintenant les performances globales dans les déploiements d’IA complexes, même si elles ne réduisent pas directement les coûts de calcul.
RAG est tout aussi pertinent aujourd’hui qu’il l’a toujours été, pour des raisons qui vont au-delà de la mise à l’échelle des fenêtres de contexte. L’un de ses principaux avantages est sa capacité à personnaliser la récupération des données en fonction des droits d’accès de l’utilisateur. Un autre avantage est sa capacité à intégrer des informations opportunes sans nécessiter de recyclage ou de réglage fin du modèle. Cela devient particulièrement important lorsque l’on considère la taille considérable des données d’entreprise, qui s’étendent souvent sur des téraoctets, voire des pétaoctets, que les entreprises peuvent chercher à intégrer aux modèles d’IA.
Les innovations impressionnantes en matière d’augmentation de la taille de la fenêtre de contexte, telles que la fenêtre de contexte de 10 millions de jetons de Llama 4 Scout, constituent un bond en avant significatif dans les LLM, mais le contexte doit toujours être utilisé de manière réfléchie. Les grandes tailles de contexte augmentent les coûts et la latence et peuvent même, dans certains cas, réduire la qualité de la réponse finale. Tout aussi importants sont les infrastructures robustes et les contrôles de sécurité nécessaires pour garantir des performances élevées à mesure que les organisations font évoluer leurs applications d’IA.
L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .