Ahmed Guetari, vice-président Product Management - Service Provider chez F5, et Ash Bhalgat, directeur principal Écosystèmes de réseau et sécurité IA chez NVIDIA, ont rédigé ensemble cet article de blog.
L’IA entre dans une ère où votre performance d’inférence et votre sécurité déterminent votre capacité à répondre aux attentes de vos clients. À l’ère de l’économie des jetons, l’infrastructure de l’IA dépasse largement la simple puissance de calcul. Vous devez orchestrer, sécuriser et faire évoluer vos capacités d’inférence, du cloud jusqu’à l’edge computing. Si vous développez des plateformes d’IA générative et d’inférence pour le cloud, vous devez optimiser l’efficacité de vos GPU, gérer plus de jetons, réduire la latence et protéger chaque niveau de votre infrastructure d’IA.
F5 relève ces défis en multipliant les capacités d'inférence grâce à l’architecture de référence NVIDIA Cloud Partner (NCP). Ce guide incontournable montre comment les principaux fournisseurs de cloud IA conçoivent, déploient et gèrent une infrastructure accélérée par GPU. L’architecture de référence réunit les meilleures technologies pour le calcul, le réseau, le stockage et la sécurité. Elle vous permet, en tant que partenaires NVIDIA Cloud, de fournir des services d’IA fiables et performants à grande échelle.
En collaborant ainsi, vous faites de F5 BIG-IP un acteur clé pour garantir une inférence sécurisée et performante au sein de l’écosystème NVIDIA.
F5 rapproche la mise en réseau, la sécurité et la distribution applicative pour vous offrir, avec NVIDIA, des plateformes d’IA intelligentes pilotées par jetons. Nous redéfinissons l’exécution de l’IA à grande échelle, pour que vous disposiez de la rapidité, de la protection et de l’intelligence nécessaires à la nouvelle économie des jetons.
L'architecture de référence NCP vous offre un cadre complet pour déployer des clouds d’IA. Vous profitez de la puissance du calcul accéléré, du réseau et des solutions logicielles NVIDIA, associés à des technologies complémentaires de partenaires majeurs de l'écosystème, pour mettre en place des solutions d’IA performantes, évolutives et sécurisées dans le cloud.
Dans cette architecture, F5 BIG-IP vous permet d’appliquer une gestion avancée du trafic, d’assurer une sécurité Zero Trust, de bénéficier de services avancés et d’une observabilité complète pour vos charges de travail d’IA s’appuyant sur GPU. Vous déployez, faites évoluer et sécurisez vos services d’inférence en toute confiance.
Pour les fournisseurs de cloud d’IA et les entreprises, les jetons font désormais office de monnaie. Ils se mesurent en débit, latence totale, temps jusqu’au premier jeton, efficacité énergétique et coût par jeton. Votre réussite dépend directement de l’infrastructure qui vous relie aux clusters GPU. Pour garantir la performance des services d’IA, vous devez assurer un routage du trafic, une protection, une observabilité, une gestion multi-locataire et une application des politiques à pleine vitesse, sans créer de goulots d’étranglement.
L’architecture de référence du NCP formalise ce modèle. Elle précise comment vous pouvez interconnecter le calcul, le réseau, le stockage, la télémétrie et la sécurité entre clouds souverains et clouds d’IA. Les DPU NVIDIA BlueField-3 assurent le rôle central pour la gestion du trafic nord-sud dans ces architectures.
En rejoignant cet écosystème, F5 vous apporte une infrastructure de pointe, avec le réseau, la sécurité et un contrôle intelligent par IA directement intégrés au tissu de référence.
F5 a déjà obtenu d’excellents résultats en intégrant la technologie NVIDIA. En avril 2025, F5 a annoncé la disponibilité générale de F5 BIG-IP Next for Kubernetes, accéléré par les DPU NVIDIA BlueField-3. Vous transférez le traitement réseau, l’application de la sécurité et la gestion intelligente du trafic vers le DPU, ce qui libère les processeurs pour vos applications métiers. SoftBank, un NCP ayant récemment mené des tests de preuve de concept dans le cloud, a obtenu des performances remarquables.
Au-delà des performances brutes, F5 BIG-IP répond précisément aux exigences opérationnelles des NCP. Vous bénéficiez d’un contrôle unifié des politiques d’ingress/egress, d’un service mesh, d’une atténuation des attaques par déni de service distribué (DDoS), de l’application du zero trust, d’une protection des API, d’une isolation des workloads et d’une visibilité multi-tenant, le tout en une seule opération.
Dans notre engagement, nous perfectionnons la logique de routage des grands modèles de langage (LLM), la mesure du trafic sensibilisée aux jetons, la gouvernance ainsi que la prise en charge du Model Context Protocol (MCP), pour vous offrir plus de contrôle et d’intelligence directement dans le chemin des données.
En soutenant l’architecture de référence NCP, BIG-IP s’impose désormais comme un pilier incontournable pour bâtir, déployer et gérer les clouds d’IA.
Vous trouvez les premiers résultats de validation particulièrement convaincants. Lorsque vous déployez les services F5 BIG-IP avec la plateforme de calcul accéléré NVIDIA, la génération de jetons progresse de plus de 30 %, et le temps jusqu’au premier jeton (TTFT) baisse de 60 %.
Vous bénéficiez de réponses plus longues, adaptées au contexte, de cycles d’inférence plus rapides et d’une réduction de 30 % du coût par jeton grâce à ces avancées. Avec davantage de jetons traités par watt, vous améliorez vos performances et votre efficacité énergétique—deux atouts essentiels pour la nouvelle économie de l’IA.
Si vous êtes client cloud, vous profitez pleinement des NCP : mise en service plus rapide, coûts d’exploitation réduits et expériences utilisateur optimisées sur chaque modèle de déploiement.
Ces progrès ne relèvent pas de simples évolutions ; ils marquent un tournant dans la manière dont vous pouvez utiliser le cloud IA pour fournir, protéger et valoriser vos services.
Avec l’intégration de F5 dans l’architecture de référence NCP, vous bénéficiez de meilleures performances, d’une sécurité renforcée et de fonctionnalités élargies pour déployer vos services d’IA. Ces avantages couvrent notamment les domaines suivants :
1. Gains de performance : Optimisé pour l’économie des jetons : F5 BIG-IP s’intègre sans accroc avec les GPU et DPU NVIDIA, les fabrics réseau et les composants logiciels de la plateforme (NVIDIA Dynamo, NVIDIA NIM) pour augmenter au maximum le rendement d’inférence de l’IA. Avec notre solution F5, vous optimisez le routage des requêtes, l’équilibrage de charge et l’efficacité de l’inférence : plus de souci de congestion, votre cluster traite davantage de jetons par seconde.
Dans un environnement où chaque jeton joue un rôle dans vos revenus et la précision de vos modèles, vous gagnez en productivité, bénéficiez de réponses plus rapides et augmentez votre rentabilité. La collaboration entre F5 et NVIDIA vous permet d’exploiter tout le potentiel de l’infrastructure accélérée dans la nouvelle économie des jetons, où l’efficacité et la performance traduisent directement vos résultats business.
2. Nous réinventons la sécurité pour l’inférence de l’IA : L’inférence de l’IA à grande échelle multiplie les surfaces d’attaque, allant de l’exposition des données à l’exploitation des points de terminaison du modèle. F5 met à votre service sa solide expertise en sécurité applicative et en application des politiques, directement intégrée dans l’architecture de référence de NVIDIA, pour garantir une protection multicouche qui sécurise vos clouds GPU, du cœur jusqu’à la périphérie. Vous bénéficiez ainsi :
Vous bénéficiez d’une structure d’IA fiable qui associe performances et protection, afin de vous permettre de développer vos activités NCP avec assurance, sans sacrifier sécurité ni conformité.
3. Fonctionnalités élargies et contrôle IA natif : Au-delà du débit et de la sécurité, la collaboration entre F5 et NVIDIA apporte de nouveaux services à valeur ajoutée qui renforcent votre contrôle, votre visibilité et votre intelligence sur l’ensemble des clusters GPU. Avec des capacités comme le routage LLM, la gestion granulaire des jetons, l’observabilité adaptative et le pilotage contextuel du trafic, vous optimisez en temps réel la répartition des charges de travail et l’utilisation des ressources.
Vous profitez de fonctionnalités qui vous offrent une prestation applicative digne de l’entreprise dans le domaine de l’IA, pour traiter chaque jeton, chaque modèle et chaque interaction utilisateur avec précision et efficacité. F5 transforme la complexité en contrôle et relie vos applications traditionnelles à l’univers en pleine évolution de l’IA générative.
En associant les capacités de F5 à l’architecture de référence NCP, nous vous aidons à établir un nouveau standard où le débit, le coût par jeton, la latence, l’efficacité énergétique et la sécurité s’imposent comme des critères essentiels dans la conception de l’infrastructure IA.
En vous appuyant sur cette base, vous faites évoluer vos clouds d’IA de façon plus prévisible, générez des revenus avec plus de transparence et gagnez en agilité à mesure que vos modèles et vos charges de travail changent. Vous, fournisseurs NCP, entreprises et clouds souverains, bénéficiez désormais d’une stack de référence validée qui inspire confiance et garantit des performances fiables.
F5 ne fait pas que rejoindre l’écosystème NVIDIA. Ensemble, nous faisons progresser l’économie des jetons, où chaque microseconde, chaque watt et chaque jeton compte. En tant que partenaire stratégique pour une infrastructure IA sécurisée, performante et conçue pour grandir, F5 travaille avec NVIDIA pour vous permettre de générer des jetons de façon plus efficace, plus rapide, plus sûre et plus intelligente.
Nous avons hâte de collaborer avec vous—clients, partenaires et innovateurs—pour façonner la prochaine génération de services d’IA, sans aucun compromis. Pour en savoir plus, consultez notre page F5 et NVIDIA.