BLOG | BUREAU DU CTO

Livraison et sécurité des applications pour les applications d'IA : Naviguer dans l'architecture moderne de l'IA

Miniature de Lori MacVittie
Lori MacVittie
Publié le 22 août 2024

Au cours du premier semestre de cette année, les modèles de déploiement d’inférence et l’émergence d’une architecture d’application d’IA ont commencé à se normaliser et à offrir une meilleure perspective sur les impacts futurs sur tout, du réseau à la distribution des applications et à la sécurité. Nous sommes convaincus que les résultats de nos récentes recherches axées sur l’IA montreront que l’inférence sera déployée à la fois sur site et dans le cloud (modèle autogéré) ainsi que consommée via les offres des fournisseurs de cloud (modèle hébergé dans le cloud) et en tant que service (modèle d’inférence en tant que service).

Cependant, l’architecture d’IA émergente s’appuie fortement sur la génération augmentée de récupération (RAG), qui intègre des sources de données (graphiques de connaissances et bases de données vectorielles) dans l’architecture de l’application. Les recherches indiquent que « 70 % des entreprises qui exploitent GenAI utilisent des outils et des bases de données vectorielles pour augmenter les modèles de base. » ( Databricks, 2024 )

La conséquence de ce modèle architectural est quadruple.

  1. Augmente le nombre de charges de travail d’applications modernes dans l’entreprise.
  2. Augmente considérablement le nombre d’API nécessitant une sécurité.
  3. Augmente la pertinence stratégique du chemin de données EW pour les technologies de fourniture d'applications et de sécurité.
  4. Introduit un nouveau niveau dans les architectures d’application : le niveau d’inférence. Il s’agit du niveau « modèle » référencé par les premières piles technologiques d’IA, mais lors de l’exploitation d’applications d’IA, il est utile de faire la différence entre un modèle en cours de formation (processus de développement) et un modèle en cours d’exploitation (processus d’exécution).

Il est important de noter que 90 % des défis auxquels les organisations sont confrontées en matière d’architecture d’IA ne sont pas nouveaux. Les modifications visant à répondre aux attentes en matière de visibilité, de limitation de débit, de routage, etc. s’ajoutent aux capacités existantes que la plupart des entreprises possèdent déjà.

De toutes les capacités nécessaires pour fournir et sécuriser les applications d’IA, j’estime que seulement 10 % sont nouvelles, et presque toutes sont liées aux invites et à la nature non structurée du trafic des applications d’IA. Ce sont ces 10 % qui donnent naissance à de nouveaux services applicatifs tels que la sécurité rapide, la gestion rapide et l'optimisation rapide ainsi que les fonctions liées à la sécurité des données. F5 a déjà démontré son engagement à répondre à ces besoins grâce à des partenariats avec Portkey et Prompt Security .

C’est également là que nous assistons à l’introduction de passerelles d’IA. Aujourd’hui, la définition d’une passerelle d’IA et les capacités qu’elle apporte au marché varient en fonction de celui qui propose la « chose », mais comme les passerelles API, les passerelles d’IA ont tendance à rassembler les capacités de sécurité et de routage des applications en un seul point de contrôle stratégique pour les organisations. Mais encore une fois, les capacités de la « chose » sont principalement de nouvelles capacités incrémentielles spécifiques au trafic IA et le reste existe déjà.

Ce qui est vraiment intéressant, pour moi, c'est le nouveau niveau, car c'est là que les capacités de livraison et de sécurité des applications nouvelles et existantes vont être nécessaires.

En fait, l’introduction d’un nouveau niveau entraîne l’émergence d’une nouvelle architecture de centre de données avec une infrastructure capable de fournir les ressources de calcul, de stockage et de réseau nécessaires pour exécuter l’inférence de l’IA à grande échelle. C'est à ce niveau que des éléments tels que les réseaux d'IA ou les usines d'IA, ou quel que soit le nom que nous leur donnons, émergent. Quel que soit son nom, cette nouvelle infrastructure comprend la capacité d' exploiter des infrastructures existantes sur de nouveaux systèmes matériels . C'est le numéro 4 dans le joli diagramme fourni.

Mais de nouvelles capacités sont également nécessaires au niveau n°2. Bien que le pont ici soit un chemin de données N-S assez standard avec un besoin évident de mettre à l’échelle, de sécuriser et d’acheminer le trafic API (oui, cette API est destinée à l’inférence mais c’est toujours une API), nous sommes susceptibles de voir de nouveaux algorithmes d’équilibrage de charge – ou du moins, de nouveaux critères de décision intégrés aux algorithmes existants – à ce stade.

Par exemple, le nombre de jetons et les fenêtres de contexte sont particulièrement importants pour comprendre les performances et la charge qu'une demande donnée impose au système récepteur, sans parler de l'impact du nombre de jetons sur le coût. Il n’est donc pas difficile de reconnaître que ces variables peuvent faire partie de toute décision d’équilibrage de charge/routage du trafic prise au point n°2.

Le point n°4 est peut-être le plus intéressant car il nous ramène à l’époque où l’on utilisait du matériel pour décharger les tâches réseau des serveurs. Oui, c’est le retour de l’approche « laisser les serveurs servir » dans l’architecture. Dans le monde moderne, cela signifie exploiter les DPU comme un système holistique sur lequel la livraison et la sécurité des applications peuvent être déployées, laissant le processeur du serveur d'inférence pour, eh bien, l'inférence. C'est un modèle que nous avons déjà vu et qui résoudra avec succès tous les problèmes liés à la mise à l'échelle (et donc aux performances) des services d'inférence.

L’impact de l’architecture de l’IA sur la fourniture et la sécurité des applications est à la fois banal et monumental. C'est banal parce que les défis sont pour la plupart les mêmes. C'est monumental car cela introduit des points supplémentaires dans l'architecture où les organisations peuvent relever ces défis de manière stratégique.

La manière dont l’industrie répondra aux problèmes banals et monumentaux façonnera l’avenir de la fourniture et de la sécurité des applications.