Cet article de blog fait partie d’une série sur les usines d’IA. Lorsque vous avez terminé ici, explorez les autres articles de la série.
Lorsque ChatGPT a été lancé en novembre 2022, les questions que nous avons posées et les invites que nous avons saisies étaient simples : « Raconte-moi une histoire sur X » et « Écris un récit entre une personne A et une personne B sur le sujet Z. » À travers ces questions et nos premières interactions avec GPT-3.5 à l’époque, nous essayions d’identifier comment cette nouvelle technologie tendance allait impacter notre vie quotidienne. Aujourd’hui, fin 2024, l’IA complète nos vies : elle nous aide à déboguer et à écrire du code, à compiler et à résumer des données et à conduire des véhicules autonomes, pour n’en citer que quelques-uns. Ce sont les résultats d’une usine d’IA moderne, et nous n’en sommes qu’au début.
Cet article, le premier d'une série sur les usines d'IA, explore les composants d'une usine d'IA et la manière dont les différents éléments fonctionnent ensemble pour générer des solutions pilotées par l'IA à grande échelle.
Au milieu de l’évolution de l’IA, le concept d’usine d’IA est apparu comme une analogie de la manière dont les modèles et services d’IA sont créés, affinés et déployés. Tout comme une usine de fabrication traditionnelle qui prend des matériaux et les transforme en produits finis, une usine d’IA est un investissement massif en matière de stockage, de réseau et de calcul répondant à des exigences de formation et d’inférence à haut volume et à haute performance.
Au sein de ces usines, des réseaux de serveurs, d’unités de traitement graphique (GPU), d’unités de traitement de données (DPU) et de matériel spécialisé fonctionnent en tandem pour traiter de vastes quantités de données, exécutant des algorithmes complexes qui entraînent les modèles d’IA à atteindre des niveaux élevés de précision et d’efficacité. Ces infrastructures sont méticuleusement conçues pour gérer l’immense puissance de calcul requise pour former des modèles à grande échelle et les déployer pour l’inférence en temps réel. Ils intègrent des solutions de stockage avancées pour gérer et récupérer des ensembles de données massifs, garantissant un flux de données fluide.
L'équilibrage de charge et l'optimisation du réseau maximisent les performances et l'utilisation des ressources, évitant les goulots d'étranglement et garantissant l'évolutivité. Cette orchestration de composants matériels et logiciels permet aux usines d’IA de produire des modèles d’IA de pointe et de les affiner en permanence, en s’adaptant aux nouvelles données et aux exigences en constante évolution. En fin de compte, une usine d’IA incarne l’industrialisation du développement de l’IA, en fournissant l’infrastructure robuste nécessaire pour prendre en charge la prochaine génération d’applications intelligentes.
Comme l'a déclaré Jensen Huang, PDG de NVIDIA, lors de Salesforce Dreamforce 2024 : « À aucun moment dans l'histoire, la technologie informatique n'a évolué plus vite que la loi de Moore », poursuivant : « Nous évoluons bien plus vite que la loi de Moore et nous pouvons sans doute facilement égaler la loi de Moore au carré. »
Le déploiement de l’IA à grande échelle devient de plus en plus essentiel, car les investissements dans l’IA servent de différenciateurs de marché essentiels et de moteurs d’efficacité opérationnelle. Pour y parvenir, les organisations doivent continuellement créer et affiner des modèles et intégrer des référentiels de connaissances et des données en temps réel. Le concept d’usine d’IA souligne que l’IA doit être un investissement continu plutôt qu’un effort ponctuel. Il fournit un cadre permettant aux organisations de rendre opérationnelles leurs initiatives d’IA, les rendant ainsi plus adaptables à l’évolution des demandes commerciales et du marché.
S'appuyant sur notre expertise en matière d'aide aux clients pour déployer des flottes d'applications modernes, performantes et sécurisées à grande échelle, F5 a développé un cadre d'architecture de référence d'IA. Étant donné que les applications d’IA sont les plus modernes des applications modernes, fortement connectées via des API et hautement distribuées, ce cadre répond aux défis critiques en matière de performances, de sécurité et d’exploitation essentiels pour fournir des applications d’IA de pointe.
Dans notre architecture de référence, nous avons défini sept éléments de base de l’IA nécessaires à la construction d’une usine d’IA complète :
Décrit l'interaction entre une application frontale et une API de service d'inférence ; se concentre sur l'envoi d'une demande à un modèle d'IA et la réception d'une réponse. Cela pose les bases d’interactions plus complexes.
Améliore l'inférence de base en ajoutant des services d'orchestration et d'augmentation de récupération de grands modèles de langage (LLM). Il détaille la récupération d'un contexte supplémentaire à partir de bases de données vectorielles et de référentiels de contenu, qui est ensuite utilisé pour générer une réponse enrichie en contexte.
Se concentre sur les processus d'ingestion de données requis pour l'inférence avec génération augmentée de récupération (RAG). Il comprend la normalisation des données, l'intégration et le remplissage des bases de données vectorielles, ainsi que la préparation du contenu pour les appels RAG.
Vise à améliorer les performances d'un modèle existant grâce à l'interaction avec le modèle. Il ajuste le modèle sans le reconstruire à partir de zéro et met l'accent sur la collecte de données à partir de l'inférence et de l'inférence avec RAG pour affiner les flux de travail.
Il s'agit de construire un nouveau modèle à partir de zéro, même s'il peut utiliser des points de contrôle précédents (re-formation). Il couvre la collecte de données, le prétraitement, la sélection du modèle, la sélection de la méthode de formation, la formation et la validation/les tests. Ce processus itératif vise à créer des modèles robustes adaptés à des tâches spécifiques.
Connecte la couche d'orchestration LLM à des sources externes telles que des bases de données et des sites Web. Il intègre des données externes dans les demandes d'inférence, mais n'inclut pas les tâches de prétraitement des documents telles que le découpage et l'intégration.
Comprend les flux de travail pour le développement, la maintenance, la configuration, le test et le déploiement des composants d'application d'IA. Il comprend des applications front-end, l'orchestration LLM, la gestion du contrôle des sources et les pipelines CI/CD.
Ensemble, ces éléments de base constituent l’épine dorsale d’une usine d’IA. Chacun joue un rôle crucial dans la création, le déploiement et le perfectionnement des résultats de l’IA. De plus, les initiatives d'usine d'IA ont tendance à se prêter à la propriété de ses propres stratégies de mise en œuvre (au lieu de les louer ou de les externaliser) pour la plupart des blocs de construction, ce qui entraîne la sélection de modèles de déploiement auto-hébergés parmi les modèles de déploiement répertoriés ci-dessous.
Pour chacun de ces éléments de base, les clients doivent sélectionner un modèle de déploiement et une stratégie de mise en œuvre appropriés (propre, location ou externalisation), définissant l'architecture de référence optimale pour atteindre les objectifs commerciaux de leurs initiatives d'IA. Voici les quatre meilleurs :
Les capacités de F5 sur lesquelles vous comptez au quotidien pour la livraison et la sécurité des applications sont les mêmes capacités essentielles pour une usine d'IA bien conçue. Le gestionnaire de trafic local F5 BIG-IP , associé au matériel spécialement conçu F5 rSeries et VELOS , permet une ingestion de données hautes performances pour la formation de l'IA. F5 Distributed Cloud Network Connect pour une mise en réseau multicloud sécurisée connecte des emplacements de données disparates, créant un conduit sécurisé entre les données propriétaires et les modèles d'IA pour RAG .
L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .
Vous souhaitez en savoir plus sur les usines d’IA ? Découvrez d’autres articles de notre série de blogs sur l’usine d’IA :