BLOG

F5 libère l'innovation grâce à de puissantes capacités d'IA sur BIG-IP Next pour Kubernetes sur les processeurs DPU NVIDIA BlueField-3.

Ahmed Guetari Miniature
Ahmed Guetari
Publié le 11 juin 2025

Les dirigeants d’entreprise savent qu’ils doivent placer l’IA au premier plan. Mais c’est plus facile à dire qu’à faire. L’IA peut être complexe, coûteuse et risquée. Et la technologie et l’écosystème évoluent rapidement.

Premièrement, on constate un net abandon d’une approche unique. L’IA/ML prédictive, l’IA générative et désormais l’IA agentique sont toutes adaptées à des secteurs et des applications spécifiques. À mesure que les modèles d’IA spécialement conçus prolifèrent, le paysage de l’IA devient de plus en plus diversifié.

Il est désormais clair que les applications d’IA nécessitent une infrastructure sur mesure, non seulement optimisée en termes de performances, de coûts et d’efficacité énergétique, mais également capable de suivre le rythme des besoins en évolution rapide des modèles, des applications et des agents d’IA. Un exemple parfait est le Model Context Protocol (MCP), une innovation puissante qui n’existait même pas il y a quelques mois.

Alors que les organisations se précipitent pour tirer parti de l’IA générative et des agents d’IA de plus en plus nombreux, certaines construisent leurs propres centres de données dédiés. D'autres se tournent vers des fournisseurs spécialisés déployant des infrastructures à l'échelle du cloud conçues pour prendre en charge plusieurs grands modèles linguistiques (LLM). Souvent appelées usines d'IA ou Neoclouds, ces plateformes présentent des investissements massifs dans le calcul accéléré, la mise en réseau et le stockage, tous spécialement conçus pour répondre aux performances intenses et faire évoluer les exigences des charges de travail de l'IA.

La création d’une infrastructure d’IA et d’inférence LLM souveraine et évolutive nécessite de relever quatre défis clés :

  1. Latence et performances – Une IA rapide et réactive est essentielle, en particulier pour les cas d’utilisation interactifs. Personne n’aime regarder un spinner en attendant qu’une IA réfléchisse.
  2. Sécurité des données – Les LLM traitent souvent des données sensibles. Garantir une inférence sécurisée et privée est essentiel et encore plus complexe en raison des différentes règles de sécurité et de conformité dans les environnements cloud et sur site.
  3. Conformité réglementaire – Avec l'expansion de l'IA dans tous les secteurs, des réglementations telles que le règlement général sur la protection des données (RGPD) de l'Union européenne ajoutent des règles strictes concernant l'utilisation des données, la sélection des modèles, la transparence et l'équité. Il est essentiel de s’y retrouver.
  4. Gestion et intégration des modèles – Les modèles d’IA nécessitent une gestion continue, notamment le contrôle de version, la surveillance et les mises à jour, et ils doivent s’intégrer en douceur dans les systèmes existants. Ce n’est pas du plug-and-play, mais des protocoles tels que MCP facilitent les choses, malgré les défis de sécurité auxquels sont confrontés les modèles d’IA.

Déployer la puce la plus adaptée à la tâche

Chez F5, nous collaborons avec NVIDIA pour garantir que les usines d'IA et les infrastructures d'IA à l'échelle du cloud répondent aux exigences de l'IA moderne. Aujourd'hui, à la NVIDIA GTC Paris 2025 , nous dévoilons une nouvelle étape d'innovation avec les nouvelles fonctionnalités de F5 BIG-IP Next pour Kubernetes déployées sur les DPU NVIDIA BlueField-3 . Cela s'appuie sur les performances améliorées, la multi-location et la sécurité que nous avons introduites au GTC San Jose 2025. Faisant partie de la plate-forme de sécurité et de livraison application F5 , F5 BIG-IP Next pour Kubernetes fonctionne nativement sur NVIDIA BlueField-3 , de puissants processeurs programmables spécialement conçus pour le déplacement et le traitement des données.

En déchargeant des tâches telles que le traitement du réseau, la gestion du stockage et les opérations de sécurité (par exemple, le chiffrement et la surveillance du trafic), les DPU libèrent de précieux cycles CPU et des ressources GPU pour se concentrer sur la formation et l'inférence de l'IA. Cela réduit les goulots d'étranglement, augmente les performances et améliore la latence, aidant les usines d'IA à fonctionner plus rapidement et plus efficacement en fournissant plus de jetons.

Situés sur des cartes d'interface réseau, les DPU gèrent le flux de données entre les serveurs et entre les clients/utilisateurs/agents externes et l'usine d'IA, orchestrant la mise en réseau et la sécurité à grande échelle. F5 BIG-IP Next pour Kubernetes déployé sur les DPU NVIDIA BlueField-3 est devenu disponible en avril.

Acheminer les messages de l'IA au bon endroit pour obtenir le résultat souhaité.

Les LLM ont progressé rapidement ces derniers mois, offrant désormais une large gamme de tailles, de coûts et d’expertises spécifiques au domaine. Choisir le bon modèle pour chaque invite garantit non seulement de meilleures réponses et une meilleure conformité réglementaire, mais optimise également la consommation de ressources, les coûts et la latence.

Grâce à l'intégration actuelle des microservices NVIDIA NIM , les organisations peuvent désormais acheminer intelligemment les demandes d'invite d'IA vers le LLM le plus approprié ou précisément vers le bon modèle pour chaque tâche. Par exemple, les modèles légers et économes en énergie peuvent gérer des demandes simples, tandis que les invites plus complexes ou plus volumineuses et spécialisées sont dirigées vers des modèles plus grands ou spécifiques à un domaine.

Cette approche permet aux usines d’IA d’utiliser les ressources informatiques plus efficacement, réduisant ainsi les coûts d’inférence jusqu’à 60 %. C’est une situation gagnant-gagnant pour les fournisseurs et les utilisateurs de modèles d’avoir une meilleure réponse, plus rapide et à meilleur coût.

Moins pour plus : La mise en cache élimine les calculs redondants et augmente la production de jetons.

Outre les GPU, NVIDIA continue d’innover au niveau logiciel pour relever les principaux défis de l’inférence de l’IA. NVIDIA Dynamo et le cache KV, inclus avec NVIDIA NIM, en sont de bons exemples. NVIDIA Dynamo introduit la diffusion désagrégée pour l'inférence, en séparant la compréhension du contexte (pré-remplissage) qui nécessite beaucoup de calcul GPU de la génération de réponse (décodage) qui nécessite beaucoup de bande passante mémoire, sur différents clusters GPU. Cela améliore l’utilisation du GPU et simplifie la mise à l’échelle entre les centres de données en gérant efficacement la planification, le routage et la gestion de la mémoire. Le cache KV optimise la manière dont le contexte du modèle est stocké et accessible. En conservant les données fréquemment utilisées dans la mémoire du GPU et en déchargeant le reste sur le processeur ou le stockage, il réduit les goulots d'étranglement de la mémoire, permettant ainsi la prise en charge de modèles plus grands ou de plus d'utilisateurs sans avoir besoin de matériel supplémentaire.

Une nouvelle fonctionnalité puissante de BIG-IP Next pour Kubernetes est sa prise en charge de la mise en cache KV, qui accélère l'inférence de l'IA tout en réduisant la consommation de temps et d'énergie. Associé au routage intelligent de NVIDIA Dynamo, basé sur quelques mesures explicites telles que l'utilisation de la mémoire GPU et d'autres critères, cela permet un délai de premier jeton (TTFT) considérablement plus court, une génération de jetons plus élevée et, en fin de compte, un débit plus rapide. DeepSeek a montré des gains de capacité de 10 à 30 fois.

Les clients peuvent utiliser la programmabilité F5 pour étendre et adapter les capacités F5 BIG-IP afin de répondre à leurs besoins précis et uniques à très hautes performances.

Opérationnalisation et sécurisation du MCP pour une IA agentique sûre et souveraine

Pour la plupart des organisations, et en particulier les grandes, comme les services financiers, les opérateurs de télécommunications et les entreprises de santé dotées de systèmes hérités complexes, l’IA agentique présente un fort attrait. Construits sur des LLM, ces agents d'IA peuvent naviguer dans des bases de données, des serveurs, des outils et des applications complexes pour récupérer des informations précises, ouvrant ainsi de nouveaux niveaux d'efficacité et de perspicacité.

Lancé par Anthropic en novembre 2024, MCP transforme la façon dont les systèmes d'IA interagissent avec les données, les outils et les services du monde réel. Agissant comme des connecteurs standardisés, les serveurs MCP permettent aux modèles d'IA d'accéder aux API, aux bases de données et aux systèmes de fichiers en temps réel, permettant à l'IA de transcender les limites des données de formation statiques et d'exécuter des tâches efficacement. À mesure que l'adoption se développe, ces serveurs nécessitent des proxys inverses avancés avec équilibrage de charge, sécurité renforcée, authentification, autorisation des données et des outils ainsi qu'une intégration transparente de Kubernetes, faisant de MCP un pilier clé de l'infrastructure d'IA souveraine et sécurisant et permettant l'IA agentique.

Déployé en tant que proxy inverse devant les serveurs MCP, BIG-IP Next pour Kubernetes déployé sur les DPU NVIDIA BlueField-3 peut mettre à l'échelle et sécuriser les serveurs MCP, vérifier les requêtes, classer les données, vérifier leur intégrité et leur confidentialité, protégeant ainsi les organisations et les LLM contre les menaces de sécurité et les fuites de données. Parallèlement, la programmabilité F5 permet de garantir facilement que l' application d'IA est conforme aux exigences du MCP et d'autres protocoles.

Si le jeton est la nouvelle monnaie, alors comptons-le, gouvernons-le et dépensons-le judicieusement.

Dans les récentes annonces de résultats, certaines grandes organisations ont commencé à divulguer le nombre de jetons générés chaque trimestre, leur croissance et les revenus qui y sont liés. Cela reflète un besoin croissant parmi nos clients : la possibilité de suivre, de gérer et de contrôler l’utilisation des jetons comme un budget pour éviter les coûts inattendus comme cela arrive parfois avec les clouds publics.

C’est pourquoi BIG-IP Next pour Kubernetes inclut désormais de nouvelles fonctionnalités de mesure et de gestion de la consommation de jetons dans l’ensemble de l’organisation. Lorsque les clients nous le demandent, nous les écoutons et les livrons avec soin.

Construire des usines d'IA sécurisées, rapides, souveraines et flexibles

Alors que les industries développent des usines d’IA et que les pays construisent leur IA souveraine, des agents d’IA émergent et les infrastructures, les écosystèmes et les applications doivent être flexibles et adaptables. Les organisations qui déploient l’IA efficacement évolueront plus rapidement, serviront mieux leurs clients et réduiront leurs coûts. Mais pour réaliser ce potentiel, l’IA doit rester sécurisée, évolutive et rentable sans ralentir le rythme de l’innovation.

C'est là qu'intervient F5. En mars dernier, nous avons fourni des performances, une solution multi-locataire et une sécurité. Désormais, avec BIG-IP Next pour Kubernetes, nous permettons une innovation conçue pour évoluer à la vitesse de l’IA.

Notre promesse : Plus de jetons par dollar, par watt. Essayez-le et voyez la différence par vous-même.

Vous participez au GTC Paris 2025 ?

F5 est fier d'être sponsor Gold de NVIDIA GTC Paris 2025. Venez nous rendre visite au stand G27 pour découvrir comment la plateforme de sécurité et de livraison application F5 prend en charge une infrastructure d'IA sécurisée et hautes performances, et assistez à notre session conjointe avec NVIDIA, Secure Infrastructure by Design : Construire des usines d'IA de confiance , le jeudi 12 juin à 10h00 CEST. 

Pour en savoir plus sur F5 BIG-IP Next pour Kubernetes déployé sur les DPU NVIDIA BlueField-3, consultez mon article de blog précédent. Assurez-vous également de lire notre communiqué de presse pour l'annonce d'aujourd'hui. 

L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .