Découvrez les risques de sécurité et les défis d’optimisation pour élaborer une approche équilibrée des applications basées sur l’IA générative.
L’IA générative (ou GenAI) peut produire de manière autonome de nouveaux contenus, y compris du texte, des images ou du son, en apprenant à partir de modèles et d’exemples dans les données existantes. Elle s’appuie sur des modèles d’apprentissage profond pour générer des résultats diversifiés et pertinents sur le plan contextuel, en émulant la créativité et les capacités de résolution de problèmes des êtres humains.
Les individus et les organisations utilisent l’IA générative pour une grande variété d’usages et d’applications, notamment la création de contenu, le traitement du langage naturel et la synthèse de données. Dans le domaine de la création de contenu, son application est variée : poésie, essais universitaires, documents marketing, images, vidéo, musique et code informatique. Dans le domaine du traitement du langage naturel, l’IA générative permet d’améliorer les chatbots et la traduction linguistique, et de synthétiser de vastes quantités de données pour alimenter la créativité dans la conception, le développement et le prototypage de produits. Le déploiement d’applications d’IA générative au sein d’une organisation peut soutenir les employés en contribuant à une prise de décision meilleure et plus éclairée et à une plus grande efficacité opérationnelle, ce qui entraîne une amélioration de la rentabilité et de la croissance de l’entreprise.
Cependant, les risques de l’IA relatifs à la sécurité et à l’éthique sont considérables. Cela inclut les risques de biais, de multiplication des cyberattaques et d’atteinte à la confidentialité. Par exemple, l’IA générative peut utiliser de grands modèles de langages (LLM) qui utilisent des contenus d’apprentissage systématiquement scrapés d’Internet, notamment de livres, de publications, de sites web et d’articles en ligne. Les modèles génératifs assimilent les données d’apprentissage. Si les données utilisées sont biaisées, le modèle peut perpétuer, voire amplifier ces biais dans ses résultats. En outre, l’IA générative peut involontairement créer et diffuser des informations erronées ou trompeuses (dites hallucination). Les acteurs malveillants peuvent également utiliser l’IA générative pour diffuser et mettre au point des propagandes incitant l’agitation sociale. Ils l’utilisent généralement pour créer des hypertrucages, un contenu réaliste mais manipulé et potentiellement trompeur ou malveillant. Les hypertrucages peuvent être utilisés pour l’usurpation d’identité, l’ingénierie sociale ou les attaques par hameçonnage ciblé, la diffusion de fausses informations ou la création de contenu trompeur pour menacer des individus ou la société. Les secteurs du dark web proposent désormais l’outil d’IA FraudGPT pour concevoir des e-mails d’hameçonnage, créer des logiciels malveillants indétectables, générer des pages de hameçonnage, identifier des sites web vulnérables et même proposer des tutoriels sur les techniques de piratage.
Le contenu utilisé pour l’apprentissage les LLM, et ce, potentiellement sans consentement, peut également contenir des informations personnelles et sensibles, ainsi que du contenu protégé par des droits d’auteur ou de propriété. Étant donné que ces informations privées font partie des données dans lesquelles l’IA puise lorsqu’elle génère du contenu, il existe un risque concret que les résultats révèlent involontairement des données sensibles ou des informations privées.
Les fournisseurs d’IA générative peuvent ne pas proposer de moyen permettant aux individus ou aux organisations de confirmer si leurs informations personnelles ou exclusives ont été stockées ou utilisées à des fins d’apprentissage, ou de demander que ces informations soient supprimées, en vertu des directives liées au « droit à l’oubli » ou au « droit d’effacement » des réglementations gouvernementales telles que le Règlement général sur la protection des données (RGPD) de l’UE. En outre, l’apprentissage du LLM implique souvent l’agrégation et l’utilisation de données provenant de régions ou pays différents, ce qui peut conduire à des scénarios susceptibles de compromettre les réglementations relatives à la souveraineté des données.
L’IA générative a de multiples applications pour les organisations et les industries. Son intégration judicieuse dans les flux de travail appropriés peut aider les entreprises à acquérir un avantage compétitif. Voici des exemples d’applications :
La sécurité de l’IA générative est un ensemble de pratiques et de mesures mises en œuvre pour faire face aux risques et aux défis potentiels en matière de sécurité associés au développement, au déploiement et à l’utilisation d’applications basées sur l’IA générative. Alors que ces technologies deviennent de plus en plus répandues et sophistiquées, les préoccupations liées à la sécurité deviennent de plus en plus importantes, en particulier parce que les charges de travail de l’IA sont devenues une surface d’attaque de premier ordre pour les cybercriminels. Pour un examen approfondi des risques de sécurité liés au déploiement et à la gestion des applications de l’IA générative, consultez le Top 10 de l’OWASP pour les applications de grands modèles de langage. Cet article vise à sensibiliser sur leurs vulnérabilités, suggère des stratégies de remédiation et cherche à améliorer les prévisions en matière de sécurité des applications de LLM.
Bien que l’IA générative puisse sembler extrêmement puissante et presque magique, elle exploite une partie des infrastructures, interfaces et composants logiciels des charges de travail traditionnelles. Elle partage donc les mêmes risques, tels que les attaques par injection et les attaques contournant les contrôles d’authentification et d’autorisation faibles. Une infrastructure fiable, performante et sécurisée est nécessaire pour le fonctionnement efficace des modèles d’IA générative sophistiqués.
Les attaques d’infrastructure comprennent également les dénis de service (DoS), dans lesquels les attaquants surchargent les ressources matérielles, telles que les processeurs, la mémoire ou le stockage, pour perturber l’exécution des charges de travail d’IA générative. Ces attaques par épuisement des ressources peuvent entraîner une dégradation des performances ou une instabilité du système, ce qui affecte la disponibilité et la fiabilité du système d’IA et compromet la capacité du modèle à apprendre et à répondre aux sollicitations de l’utilisateur.
L’accès non autorisé à l’infrastructure du système d’IA constitue également une menace importante pour les flux de travail de GenAI, car il peut avoir un impact sur la confidentialité et l’intégrité du système. Les intrusions dans l’infrastructure du système peuvent conduire à des activités malveillantes telles que le vol de données, l’interruption de service ou l’insertion de codes malveillants. Cela compromet non seulement la sécurité des modèles et des données d’IA, mais peut également entraîner la production et la diffusion de résultats inexacts ou préjudiciables.
Le point de départ de toute application GenAI est constitué par les données d’apprentissage que les modèles d’apprentissage automatique utilisent pour reconnaître les modèles souhaités, faire des prédictions et exécuter des tâches. Pour qu’un LLM soit très performant, ses données d’apprentissage doivent couvrir un éventail large et diversifié de domaines, de genres et de sources. Cependant, le processus d’apprentissage des modèles, qu’il utilise des modèles préentraînés prêts à l’emploi ou des modèles sur mesure entraînés sur des ensembles de données personnalisés, est vulnérable à la manipulation et aux attaques.
Les attaques malveillantes impliquent que des acteurs malveillants manipulent intentionnellement les données d’entrée pour tromper ou compromettre les performances des modèles d’IA générative, un processus que l’OWASP identifie comme l’empoisonnement des données d’apprentissage. Cela comprend également la manipulation des données pour introduire des vulnérabilités, des portes dérobées ou des biais qui pourraient compromettre la sécurité, l’efficacité ou le comportement éthique du modèle. Ces vulnérabilités introduisent également des vecteurs d’attaque que les acteurs malveillants peuvent exploiter pour obtenir un accès non autorisé à des informations sensibles. Les chaînes d’approvisionnement des modèles compromis peuvent entraîner des résultats biaisés ou non fiables, des violations de la vie privée et l’exécution de code non autorisé. Cela est particulièrement préoccupant pour les applications d’IA générative, car elles utilisent de vastes écosystèmes de plugins.
Les applications GenAI utilisent des LLM qui génèrent des résultats basés sur des ensembles de données d’apprentissage, des réseaux neuronaux et une architecture d’apprentissage profond pour générer des réponses aux demandes des utilisateurs. Les modèles d’IA servent de base pour identifier les modèles, les structures et les relations au sein des données existantes qui servent à générer de nouveaux résultats basés sur cette compréhension.
Les modèles d’IA sont sensibles à une variété d’attaques, y compris les injections d’invites et d’autres menaces d’entrée qui manipulent les LLM en entrant des invites soigneusement conçues qui font que le modèle ignore les instructions précédentes ou exécute des actions involontaires. Les injections d’invites sont parmi les causes les plus courantes de désinformation et de faux contenu générés par les modèles d’IA. Les applications GenAI sont également sensibles à des vulnérabilités telles que les attaques SSRF (server-side request forgery), qui permet aux attaquants d’exécuter des requêtes non prévues ou d’accéder à des ressources restreintes, ainsi que l’ exécution de code à distance (RCE), qui peut amener l’application à exécuter un code malveillant ou d’autres actions sur le système sous-jacent.
La protection des systèmes GenAI nécessite une approche de la sécurité à plusieurs niveaux. Cela devrait impliquer des protocoles d’authentification et d’autorisation robustes, y compris des contrôles d’accès stricts pour garantir que seul le personnel autorisé a accès aux composants critiques du système. Il faut également mettre en œuvre une gestion de vulnérabilité de manière proactive, y compris des mises à jour logicielles régulières et une surveillance continue pour la détection précoce et la prévention des tentatives d’intrusion. Pour contrer les attaques DoS, intégrer la redondance dans le système, notamment par l’utilisation de serveurs de sauvegarde et de protocoles de prévention de la défaillance est nécessaire pour garantir une disponibilité persistante du traitement. Les LLM peuvent également faire l’objet d’un déni de service, car les invites des utilisateurs génèrent des jetons et les LLM ont des fenêtres contextuelles fixes, qui peuvent être ciblées dans le but d’épuiser les ressources du système.
Les organisations devraient mettre en œuvre des processus de contrôle rigoureux pour vérifier la chaîne d’approvisionnement des données d’apprentissage et ne sélectionner que des modèles pré-entraînés provenant de sources fiables. Étant donné que des données de mauvaise qualité et des biais dans les données d’apprentissage peuvent entraver la capacité du modèle à apprendre des représentations précises et à produire des résultats fiables, le prétraitement des données avant qu’elles ne soient introduites dans un modèle génératif est essentiel pour une GenAI efficace. L’adaptation des modèles est également vitale dans de nombreuses industries réglementées. Des techniques telles que le nettoyage, la normalisation et l’augmentation des données, ainsi que la détection et l’atténuation des biais peuvent aider à prévenir les erreurs et l’empoisonnement des données.
Il faut mettre en œuvre des contrôles d’accès robustes, des méthodes de chiffrement et des pratiques de déploiement sécurisées, notamment l’isolation du réseau et des configurations de pare-feu appropriées, pour protéger les modèles d’IA générative contre les menaces de sécurité potentielles. Pour prévenir les injections d’invite, utiliser des techniques telles que l’assainissement d’invite, la validation d’entrée et le filtrage d’invite est essentiel pour s’assurer que le modèle n’est pas manipulé par des entrées malveillantes. Les risques d’exécution de code non autorisé peuvent être réduits en utilisant des pratiques de codage sécurisées, en effectuant des examens approfondis du code et en utilisant des défenses d’exécution telles que le sandboxing de code. L’injection d’invite représente l’un des risques les plus graves et les plus compliqués des applications GenAI.
Le traitement de l’IA générative pouvant exiger beaucoup de ressources, l’optimisation des modèles d’IA générative pour améliorer les performances et l’efficacité est une étape importante pour rendre les modèles plus rapides, plus évolutifs et plus économes en énergie.
Les environnements multicloud sont devenus la base des applications optimisées par l’IA en raison de leur capacité à connecter les charges de travail d’IA et les plugins de l’écosystème dans des environnements distribués. Le réseau multicloud (MCN) offre la flexibilité nécessaire pour augmenter ou réduire dynamiquement les ressources en fonction des exigences de calcul des charges de travail d’IA générative, y compris les accélérateurs matériels tels que les processeurs graphiques (GPU), avec des ressources provenant de différents fournisseurs de cloud intégrées dans le traitement des données pour optimiser les performances et minimiser les retards. Le déploiement de modèles GenAI dans plusieurs régions de cloud permet la distribution géographique du traitement, la réduction de la latence et l’amélioration des temps de réponse, ce qui est particulièrement important pour les applications d’IA distribuées en temps réel ou interactives. L’Edge AI émerge comme une méthode inestimable pour améliorer l’expérience de l’utilisateur. La distribution régionale des modèles GenAI peut également permettre aux organisations de stocker et de traiter les données en conformité avec les exigences de souveraineté des données.
La plateforme d’orchestration de conteneurs Kubernetes est la norme de facto pour l’exécution des charges de travail GenAI, fournissant l’infrastructure pour exécuter et mettre à l’échelle les modèles d’IA dans des conteneurs afin de garantir une haute disponibilité et une utilisation efficace des ressources. Kubernetes agit comme un orchestrateur, gérant le déploiement et la surveillance des différents composants au sein de l’application d’IA, et garantissant que les modèles d’IA, les pipelines de traitement des données et les autres services peuvent être efficacement gérés et mis à l’échelle. Les MCN et les contrôleurs d’entrée sont essentiels en raison des différentes implémentations de Kubernetes, ainsi que de la nécessité de provisionner uniformément les charges de travail, de diriger le trafic et de distribuer l’inférence en toute sécurité.
Les API constituent le connecteur permettant aux différentes parties de l’application d’IA d’échanger des données et des instructions, et aux différents composants et services de communiquer entre eux. Les écosystèmes de plugins GenAI, par exemple, sont connectés via des appels d’API. Les solutions Kubernetes Ingress offrent des capacités intégrées d’équilibrage de charge, de limitation du débit et de contrôle d’accès, répartissant en toute sécurité le trafic entre plusieurs pods afin d’améliorer les performances de traitement globales des charges de travail d’IA.
L’équilibre entre la vitesse et la qualité des résultats implique souvent des compromis pour l’optimisation de la GenAI. L’obtention de résultats de haute qualité nécessite généralement des modèles et des calculs plus complexes et exigeant plus de ressources, tandis que l’optimisation des performances peut impliquer des simplifications du modèle qui peuvent avoir un impact sur la qualité du contenu généré. Des modèles plus complexes peuvent également nécessiter des temps d’apprentissage plus longs et conduire à une inférence plus lente, ce qui a un impact à la fois sur la vitesse du processus d’apprentissage et sur les performances des applications en temps réel. Ceci est particulièrement problématique pour les modèles de GenAI qui doivent s’adapter à des environnements dynamiques, ce qui peut nécessiter une optimisation continue et présenter des défis dans le maintien d’un équilibre entre la qualité et les performances. En plus des GPU, les processeurs (CPU) et les unités de traitement des données (DPU) peuvent être utilisées pour les tâches de traitement, soulignant l’importance de la gestion intelligente du trafic et du regroupement des ressources.
L’optimisation des modèles d’IA générative nécessite la prise en compte équilibrée, et la combinaison, de plusieurs facteurs.
Le nettoyage du modèle consiste à identifier et à supprimer les paramètres redondants ou moins cruciaux du modèle afin de réduire sa taille et ses exigences de calcul, dans le but de créer un modèle plus compact tout en préservant les performances. La quantification réduit les exigences de mémoire et la complexité de calcul des modèles de GenAI en représentant les valeurs numériques avec une précision de bits inférieure, par exemple en convertissant les nombres à virgule flottante en représentations à virgule fixe ou entières de précision inférieure. Cela peut conduire à des exigences de mémoire inférieures et à une efficacité accrue dans le déploiement et le stockage des modèles.
L’apprentissage par transfert est une technique d’apprentissage automatique dans laquelle un modèle formé à une tâche est adapté à une autre tâche connexe, ce qui réduit considérablement le temps et les ressources informatiques nécessaires à l’apprentissage, en particulier pour les modèles profonds et complexes. L’apprentissage par transfert facilite la réutilisation efficace des connaissances, ce qui permet d’optimiser les modèles d’IA générative pour des applications spécifiques sans avoir besoin de ressources informatiques importantes.
La distribution de l’apprentissage du modèle et de l’inférence à plusieurs processeurs, appareils ou cloud permet d’optimiser la formation du modèle et l’expérience utilisateur en exploitant les capacités de traitement parallèle. En outre, l’adaptation de l’architecture du modèle et du processus d’apprentissage pour tirer parti des capacités individuelles des matériels (par exemple, le CPU ou le GPU spécifique sur lequel il sera appliqué) peut optimiser le processus d’apprentissage et d’inférence pour améliorer les performances, en particulier si l’inférence peut être effectuée à proximité de l’utilisateur.
L’IA générative a le potentiel d’offrir des avantages compétitifs majeurs, mais pour que les organisations puissent pleinement tirer parti de ses avantages sans risque, elles doivent prendre les mesures nécessaires pour optimiser et sécuriser les charges de travail d’IA dans des environnements divers et distribués. Cela nécessite non seulement d’améliorer l’efficacité des charges de travail d’IA, mais aussi la gestion d’écosystèmes Kubernetes complexes, l’intégration transparente et sécurisée des API, et la gestion efficace des réseaux multicloud.
F5 optimise les performances et la sécurité des charges de travail d’IA modernes, en assurant une distribution et une protection cohérentes des modèles d’IA générative et des données dans l’ensemble de l’environnement applicatif distribué, y compris les centres de données, les clouds publics et clouds privés, le multicloud, Kubernetes natif et la périphérie. F5 fournit une trame de données sous-jacente et unifiée pour prendre en charge l’apprentissage, l’adaptation, le déploiement et la gestion des modèles d’IA générative à grande échelle, en garantissant une expérience utilisateur transparente et en prenant en charge la prise de décision en temps réel dans les applications pilotées par l’IA.
F5 propose une suite de solutions intégrées de sécurité, de distribution et d’optimisation des performances qui réduisent la complexité de l’IA générative tout en offrant une échelle et des performances prévisibles, avec une visibilité et une gestion centralisées via une seule console.
Grâce à l’optimisation de l’efficacité, la réduction de la latence et l’amélioration des temps de réponse, les technologies F5 permettent aux organisations de bénéficier en toute sécurité des avantages de l’IA générative tout en garantissant une expérience utilisateur transparente et en prenant en charge la flexibilité nécessaire pour déployer des charges de travail d’IA n’importe où.
PRÉSENTATION DE LA SOLUTION
Distribuez, optimisez et sécurisez vos charges de travail d’IA avec F5 ›