L’IA générative accélère l’impact de l’IA sur les infrastructures. Nous étions déjà entrés dans une renaissance des infrastructures , avec des technologues ravivant l’intérêt et l’admiration pour les couches modestes de réseau, de calcul et de stockage du centre de données. Principalement motivée par la « mort » de la loi de Moore et l’émergence de l’informatique de pointe, nous assistions déjà il y a des années à l’essor des unités de traitement spécialisées (xPU).
Aujourd’hui, l’IA générative — et les jeux vidéo, pour être juste — ont fait des GPU un terme familier et de l’optimisation des GPU un nouveau besoin.
C’est parce que les GPU sont très demandés et peu disponibles. Les entreprises dépensent déjà, ou prévoient de dépenser, des pourcentages importants de leur budget informatique global pour ce puissant matériel. Une partie de cet investissement est consacrée à leur propre infrastructure, tandis qu’une autre partie sert à soutenir l’infrastructure de cloud public.
Mais tout cela contribue à soutenir la disponibilité des ressources GPU pour l’exploitation des applications d’IA .
Mais en regardant autour de nous, nous constatons que l’introduction d’un nouveau type de ressource dans les infrastructures pose des défis. Pendant des années, les organisations ont traité l’infrastructure comme une marchandise. C'est-à-dire que c'est la même chose.
Et c’était en grande partie le cas. Les organisations sont standardisées sur des serveurs de type « white box » ou de marque, tous dotés des mêmes capacités de mémoire et de calcul. Cela a facilité les opérations d’infrastructure, car il n’était pas nécessaire, dans la gestion du trafic, de se soucier de savoir si une charge de travail s’exécutait sur le serveur 8756 ou sur le serveur 4389. Ils avaient les mêmes capacités.
Mais maintenant ? Oh, les GPU changent tout cela. Désormais, les opérations d’infrastructure doivent savoir où se trouvent les ressources GPU et comment elles sont utilisées. Et il y a des signes qui montrent que les choses ne vont peut-être pas si bien.
Selon l’ état de l’infrastructure de l’IA à grande échelle 2024, « 15 % des entreprises déclarent que moins de 50 % de leurs GPU disponibles et achetés sont utilisés. »
Il est tout à fait possible que ces 15 % d’organisations n’aient tout simplement pas la charge nécessaire pour utiliser plus de 50 % de leurs ressources GPU. Il est également possible qu’ils le fassent et qu’ils ne le soient pas.
Il est certain que certaines organisations se retrouveront dans cette dernière catégorie, se demandant pourquoi leurs applications d’IA ne fonctionnent pas aussi bien que les utilisateurs l’attendent alors qu’elles disposent d’une grande capacité GPU disponible.
Cela concerne en partie l’infrastructure et la nécessité de s’assurer que les charges de travail correspondent correctement aux ressources requises. Après tout, toutes les charges de travail d’une application d’IA n’ont pas besoin de capacité GPU. La charge de travail qui en bénéficiera est le serveur d’inférence, et pas grand-chose d’autre. Cela implique donc un travail d'architecture stratégique au niveau de la couche d'infrastructure, en veillant à ce que les charges de travail gourmandes en GPU s'exécutent sur des systèmes compatibles GPU tandis que les autres charges de travail des applications s'exécutent sur des systèmes classiques.
Cela signifie des politiques de provisionnement qui comprennent quels nœuds sont compatibles GPU et lesquels ne le sont pas. C’est une grande partie de l’optimisation du GPU. Cela signifie également que les services d’application qui distribuent les requêtes à ces ressources doivent également être plus intelligents. L’équilibrage de charge , le contrôle d’entrée et les passerelles qui distribuent les requêtes font partie de l’équation d’efficacité en matière d’utilisation de l’infrastructure. Si chaque requête est adressée à un ou deux systèmes compatibles GPU, non seulement leurs performances seront médiocres, mais les organisations se retrouveront également avec une capacité GPU « de réserve » pour laquelle elles ont payé cher.
Cela pourrait également signifier exploiter ces ressources GPU dans le cloud public. Et pour ce faire, il faut exploiter les services réseau pour garantir la sécurité des données partagées.
En d’autres termes, les applications d’IA vont avoir un impact significatif sur l’infrastructure en termes de distribution et de la manière dont elle est provisionnée et gérée en temps réel. Il y aura un besoin accru de télémétrie pour garantir que les opérations disposent d’une vue à jour des ressources disponibles et de leur emplacement, ainsi qu’une bonne automatisation pour garantir que le provisionnement correspond aux exigences de la charge de travail.
C’est pourquoi les organisations doivent moderniser l’ensemble de leur architecture d’entreprise . Parce qu’il ne s’agit plus seulement de couches ou de niveaux, mais de la manière dont ces couches et ces niveaux s’interconnectent et se soutiennent mutuellement pour répondre aux besoins d’une entreprise numériquement mature , capable d’exploiter la puissance de l’IA .