F5 fait évoluer l'inférence de l'IA de l'intérieur vers l'extérieur

L'inférence en action

Vous avez vu comment les infrastructures de calcul IA se constituent de banques de CPU et de GPU. Ces ressources de calcul nécessitent des ratios et des équilibres précis pour que le cluster reste performant. Dès qu’un CPU ne suit pas le rythme, un GPU très coûteux reste inutilisé.

Vous voyez, seule une partie du traitement d’un serveur d’inférence est réellement de l’inférence. Une grande partie de ce traitement est un traitement Web standard de requêtes HTTP et API. C'est la partie du service d'inférence qui utilise le processeur et qui est souvent surchargée. Lorsque cela se produit, les GPU sont de moins en moins utilisés, car le côté serveur de l’inférence se retrouve embourbé dans la gestion des requêtes.

C'est probablement la raison pour laquelle 15 % des organisations signalent que moins de 50 % de leurs GPU disponibles et achetés sont utilisés ( État de l'infrastructure de l'IA à grande échelle 2024 ).

Le problème vient en partie de l’utilisation des ressources CPU pour ce qui devrait relever de l’infrastructure. Vous voyez, des services comme la gestion du trafic, les opérations de sécurité et la surveillance utilisent aussi des ressources CPU et augmentent la charge sur l’ensemble du système. Cela réduit la capacité et les performances des serveurs d’inférence, tout en limitant l’exploitation des ressources GPU.

Heureusement, cette renaissance de l’infrastructure vous permet de préserver les ressources CPU pour le traitement des inférences en déléguant les opérations d’infrastructure à une nouvelle unité de traitement : le DPU.

Ce qui est intéressant avec les DPU, c’est qu’ils prennent en charge deux modes différents. D'une part, ils peuvent décharger la mise en réseau comme RDMA sur Infiniband ou Ethernet. Cela aide énormément lors de la création d'un complexe de calcul d'IA dans lequel des quantités importantes de données vont circuler, comme la formation d'un modèle d'IA ou la mise à l'échelle d'inférences pour une large base d'utilisateurs.

Mais les DPU peuvent également être configurés en mode « DPU ». Dans Kubernetes, cela les fait apparaître comme un nœud distinct sur lequel des fonctions telles que la livraison d'applications et la sécurité peuvent s'exécuter. Cela réserve efficacement la puissance de calcul du processeur aux services d'inférence en « déchargeant » les charges de travail d'infrastructure les moins prévisibles et les plus exigeantes sur leur propre nœud dans le cluster. Cela permet à des solutions comme F5 BIG-IP Next SPK (Service Proxy for Kubernetes) de gérer et de sécuriser les requêtes NS AI entrantes via l'API et de les distribuer correctement au service d'inférence approprié au sein du complexe de calcul AI.

Cette approche signifie que les organisations peuvent tirer parti des connaissances et des investissements existants dans la gestion de l’infrastructure Kubernetes, car notre solution est native de Kubernetes. Cœur, cloud, périphérie : cela n’a pas d’importance car l’opération se déroule au niveau du cluster et est cohérente dans tous les environnements.

Il sépare également la responsabilité de la gestion de la distribution des applications et des services de sécurité, ce qui permet aux équipes d'opérations réseau et de sécurité de gérer l'infrastructure indépendamment des charges de travail d'IA gérées par les équipes d'opérations de développement et de ML.

Enfin, l’exploitation du DPU pour la distribution et la sécurité des applications répond mieux aux besoins multi-locataires des organisations. Il ne s’agit pas seulement d’isoler les charges de travail des clients, mais également de modéliser les charges de travail. Nous savons, grâce à nos recherches, que les organisations utilisent déjà, en moyenne, 2,9 modèles différents . Être capable de gérer l’utilisation de chacun via une solution cohérente permettra une plus grande confiance dans la sécurité et la confidentialité des données consommées et générées par chaque modèle individuel.

Ce n’est pas la première fois que F5 collabore avec les DPU NVIDIA sur des cas d’usage liés à l’IA. C’est cependant la première fois que nous unissons nos forces pour concevoir une solution qui aide les clients de toutes tailles à déployer des complexes de calcul IA évolutifs et sécurisés, afin que vous puissiez exploiter en toute confiance et sécurité la puissance de l’inférence dans n’importe quel environnement, tout en optimisant l’utilisation des ressources GPU, sans qu’elles restent inutilisées.

Recherches suggérées

F5 fait évoluer l’inférence de l’IA de l’intérieur vers l’extérieur

L'inférence en action

Assurez la livraison et la sécurité de chaque application

F5 fait évoluer l’inférence de l’IA de l’intérieur vers l’extérieur

L'inférence en action

Assurez la livraison et la sécurité de chaque application

RESTER EN CONTACT AVEC NOUS