BLOG

Qu'est-ce qu'une usine d'IA ?

Miniature de Hunter Smit
Chasseur Smit
Publié le 11 octobre 2024

Lorsque ChatGPT a été lancé en novembre 2022, les questions que nous avons posées et les invites que nous avons saisies étaient simples : « Raconte-moi une histoire sur X » et « Écris un récit entre une personne A et une personne B sur le sujet Z. » À travers ces questions et nos premières interactions avec GPT-3.5 à l’époque, nous essayions d’identifier comment cette nouvelle technologie tendance allait impacter notre vie quotidienne. Aujourd’hui, fin 2024, l’IA complète nos vies : elle nous aide à déboguer et à écrire du code, à compiler et à résumer des données et à conduire des véhicules autonomes, pour n’en citer que quelques-uns. Ce sont les résultats d’une usine d’IA moderne, et nous n’en sommes qu’au début.

Cet article, le premier d'une série sur les usines d'IA, explore les composants d'une usine d'IA et la manière dont les différents éléments fonctionnent ensemble pour générer des solutions pilotées par l'IA à grande échelle.

Définition des usines d’IA

Au milieu de l’évolution de l’IA, le concept d’usine d’IA est apparu comme une analogie de la manière dont les modèles et services d’IA sont créés, affinés et déployés. Tout comme une usine de fabrication traditionnelle qui prend des matériaux et les transforme en produits finis, une usine d’IA est un investissement massif en matière de stockage, de réseau et de calcul répondant à des exigences de formation et d’inférence à haut volume et à haute performance.

Au sein de ces usines, des réseaux de serveurs, d’unités de traitement graphique (GPU), d’unités de traitement de données (DPU) et de matériel spécialisé fonctionnent en tandem pour traiter de vastes quantités de données, exécutant des algorithmes complexes qui entraînent les modèles d’IA à atteindre des niveaux élevés de précision et d’efficacité. Ces infrastructures sont méticuleusement conçues pour gérer l’immense puissance de calcul requise pour former des modèles à grande échelle et les déployer pour l’inférence en temps réel. Ils intègrent des solutions de stockage avancées pour gérer et récupérer des ensembles de données massifs, garantissant un flux de données fluide.

L'équilibrage de charge et l'optimisation du réseau maximisent les performances et l'utilisation des ressources, évitant les goulots d'étranglement et garantissant l'évolutivité. Cette orchestration de composants matériels et logiciels permet aux usines d’IA de produire des modèles d’IA de pointe et de les affiner en permanence, en s’adaptant aux nouvelles données et aux exigences en constante évolution. En fin de compte, une usine d’IA incarne l’industrialisation du développement de l’IA, en fournissant l’infrastructure robuste nécessaire pour prendre en charge la prochaine génération d’applications intelligentes.

Pourquoi les usines d’IA sont-elles importantes ?

Comme l'a déclaré Jensen Huang, PDG de NVIDIA, lors de Salesforce Dreamforce 2024 : « À aucun moment dans l'histoire, la technologie informatique n'a évolué plus vite que la loi de Moore », poursuivant : « Nous évoluons bien plus vite que la loi de Moore et nous pouvons sans doute facilement égaler la loi de Moore au carré. »

Le déploiement de l’IA à grande échelle devient de plus en plus essentiel, car les investissements dans l’IA servent de différenciateurs de marché essentiels et de moteurs d’efficacité opérationnelle. Pour y parvenir, les organisations doivent continuellement créer et affiner des modèles et intégrer des référentiels de connaissances et des données en temps réel. Le concept d’usine d’IA souligne que l’IA doit être un investissement continu plutôt qu’un effort ponctuel. Il fournit un cadre permettant aux organisations de rendre opérationnelles leurs initiatives d’IA, les rendant ainsi plus adaptables à l’évolution des demandes commerciales et du marché.

Composants d'une usine d'IA

S'appuyant sur notre expertise en matière d'aide aux clients pour déployer des flottes d'applications modernes, performantes et sécurisées à grande échelle, F5 a développé un cadre d'architecture de référence d'IA. Étant donné que les applications d’IA sont les plus modernes des applications modernes, fortement connectées via des API et hautement distribuées, ce cadre répond aux défis critiques en matière de performances, de sécurité et d’exploitation essentiels pour fournir des applications d’IA de pointe.

Sept éléments constitutifs de l’IA

Dans notre architecture de référence, nous avons défini sept éléments de base de l’IA nécessaires à la construction d’une usine d’IA complète :

1. Inférence

Décrit l'interaction entre une application frontale et une API de service d'inférence ; se concentre sur l'envoi d'une demande à un modèle d'IA et la réception d'une réponse. Cela pose les bases d’interactions plus complexes.

inférence

2. Génération augmentée par récupération

Améliore l'inférence de base en ajoutant des services d'orchestration et d'augmentation de récupération de grands modèles de langage (LLM). Il détaille la récupération d'un contexte supplémentaire à partir de bases de données vectorielles et de référentiels de contenu, qui est ensuite utilisé pour générer une réponse enrichie en contexte.

diagramme d'augmentation de récupération

3. Gestion des corpus RAG

Se concentre sur les processus d'ingestion de données requis pour l'inférence avec génération augmentée de récupération (RAG). Il comprend la normalisation des données, l'intégration et le remplissage des bases de données vectorielles, ainsi que la préparation du contenu pour les appels RAG.

diagramme de chiffon

4. Réglage fin

Vise à améliorer les performances d'un modèle existant grâce à l'interaction avec le modèle. Il ajuste le modèle sans le reconstruire à partir de zéro et met l'accent sur la collecte de données à partir de l'inférence et de l'inférence avec RAG pour affiner les flux de travail.

diagramme de réglage fin

5. Entraînement

Il s'agit de construire un nouveau modèle à partir de zéro, même s'il peut utiliser des points de contrôle précédents (re-formation). Il couvre la collecte de données, le prétraitement, la sélection du modèle, la sélection de la méthode de formation, la formation et la validation/les tests. Ce processus itératif vise à créer des modèles robustes adaptés à des tâches spécifiques.

diagramme de formation

6. Intégration de services externes

Connecte la couche d'orchestration LLM à des sources externes telles que des bases de données et des sites Web. Il intègre des données externes dans les demandes d'inférence, mais n'inclut pas les tâches de prétraitement des documents telles que le découpage et l'intégration.

diagramme des services externes

7. Développement

Comprend les flux de travail pour le développement, la maintenance, la configuration, le test et le déploiement des composants d'application d'IA. Il comprend des applications front-end, l'orchestration LLM, la gestion du contrôle des sources et les pipelines CI/CD.

développement

Ensemble, ces éléments de base constituent l’épine dorsale d’une usine d’IA. Chacun joue un rôle crucial dans la création, le déploiement et le perfectionnement des résultats de l’IA. De plus, les initiatives d'usine d'IA ont tendance à se prêter à la propriété de ses propres stratégies de mise en œuvre (au lieu de les louer ou de les externaliser) pour la plupart des blocs de construction, ce qui entraîne la sélection de modèles de déploiement auto-hébergés parmi les modèles de déploiement répertoriés ci-dessous.

Quatre modèles de déploiement

Pour chacun de ces éléments de base, les clients doivent sélectionner un modèle de déploiement et une stratégie de mise en œuvre appropriés (propre, location ou externalisation), définissant l'architecture de référence optimale pour atteindre les objectifs commerciaux de leurs initiatives d'IA. Voici les quatre meilleurs :

  • L'IA-SaaS implique l'utilisation d'une implémentation SaaS (Software as a Service) d'un service d'inférence, où le fournisseur de services gère l'infrastructure, les mises à jour du modèle et la mise à l'échelle. Les utilisateurs interagissent avec le service via des API sans se soucier de la maintenance sous-jacente. Ce modèle de déploiement est idéal pour les entreprises qui recherchent une simplicité d’utilisation et une intégration rapide sans frais généraux importants. Il permet également une évolutivité rapide et un accès aux dernières fonctionnalités et améliorations.
  • Le déploiement hébergé dans le cloud implique la gestion du service d'inférence à l'aide d'un fournisseur de services cloud (CSP) en tant qu'infrastructure en tant que service (IaaS) ou plate-forme en tant que service (PaaS). Dans ce modèle, l'utilisateur est responsable de la gestion du service, y compris de la configuration, de la mise à l'échelle et de la maintenance, mais bénéficie de l'infrastructure et des outils robustes du CSP. Ce modèle offre flexibilité et contrôle, ce qui le rend adapté aux organisations ayant des exigences spécifiques et une expertise technique. Il permet également une intégration transparente avec d’autres services et outils cloud natifs.
  • Le déploiement auto-hébergé nécessite la gestion du service d'inférence au sein d'un centre de données privé autogéré ou d'un service de colocation. Ce modèle offre le plus haut niveau de contrôle et de personnalisation, permettant aux organisations d’adapter l’infrastructure et le service à leurs besoins spécifiques. Cependant, cela nécessite également des ressources importantes pour la maintenance, les mises à jour et la mise à l’échelle. Il est souvent choisi par les organisations ayant des exigences strictes en matière de sécurité, de conformité ou de performances qui ne peuvent pas être satisfaites par des solutions basées sur le cloud.
  • Le déploiement hébergé en périphérie implique l’exécution de services d’IA ou d’apprentissage automatique (ML) en périphérie, comme dans un kiosque de vente au détail, un appareil IoT ou d’autres environnements localisés. Ce modèle réduit la latence en traitant les données à proximité de leur source, ce qui le rend idéal pour les applications en temps réel et les scénarios où la connectivité Internet est limitée ou intermittente. Cela nécessite une gestion matérielle et logicielle locale robuste, mais offre des avantages significatifs pour les cas d’utilisation nécessitant une prise de décision immédiate et localisée. Le déploiement hébergé en périphérie est particulièrement utile dans des secteurs tels que la vente au détail, la fabrication et la santé.

F5 fournit et sécurise les applications d’IA partout

Les capacités de F5 sur lesquelles vous comptez au quotidien pour la livraison et la sécurité des applications sont les mêmes capacités essentielles pour une usine d'IA bien conçue. Le gestionnaire de trafic local F5 BIG-IP , associé au matériel spécialement conçu F5 rSeries et VELOS , permet une ingestion de données hautes performances pour la formation de l'IA. F5 Distributed Cloud Network Connect pour une mise en réseau multicloud sécurisée connecte des emplacements de données disparates, créant un conduit sécurisé entre les données propriétaires et les modèles d'IA pour RAG .

L'accent mis par F5 sur l'IA ne s'arrête pas là : découvrez comment F5 sécurise et fournit des applications d'IA partout .