L’Edge AI représente le déploiement d’algorithmes et de modèles d’intelligence artificielle dans un environnement d’edge computing, qui rapproche la puissance de calcul et l’intelligence de l’endroit où les décisions sont prises, en partie pour compenser un flux de communication continu entre les sites en périphérie et le cloud. L’Edge AI permet aux appareils situés à la périphérie du réseau de traiter les données localement, ce qui permet de prendre des décisions en temps réel sans dépendre des connexions Internet ou des serveurs centralisés du cloud pour le traitement, d’augmenter la vitesse de calcul et d’améliorer la protection de la vie privée et la sécurité des données.
L’Edge AI est la convergence de plusieurs technologies, notamment l’intelligence artificielle, l’internet des objets (IoT), l’edge computing et les systèmes embarqués, chacune jouant un rôle crucial dans le traitement intelligent et la prise de décision en périphérie du réseau. L’Edge AI implique l’utilisation d’algorithmes embarqués pour surveiller l’activité d’un système distant, ainsi que le traitement des données collectées par des dispositifs tels que les capteurs et autres traqueurs de données non structurées, notamment la température, le langage, les visages, le mouvement, les images, la proximité et d’autres entrées analogiques.
Ces systèmes distants peuvent prendre de nombreuses formes, notamment des capteurs, des smartphones, des dispositifs IoT, des drones, des caméras, et même des véhicules et des appareils intelligents. Les données collectées à partir de ces systèmes servent d’entrée aux algorithmes d’edge AI, fournissant des informations précieuses sur l’état du système ou de son environnement, ce qui permet aux systèmes d’edge AI de réagir rapidement aux changements ou aux anomalies et de comprendre l’environnement dans lequel ils opèrent. Ces applications d’edge AI seraient peu pratiques, voire impossibles à exploiter dans un environnement de cloud centralisé ou de centre de données d’entreprise en raison de problèmes liés au coût, à la latence, à la bande passante, à la sécurité et à la protection de la vie privée.
L’Edge AI englobe un large éventail de cas d’utilisation, notamment :
Il existe deux paradigmes principaux pour le déploiement d’algorithmes et de modèles d’IA : en périphérie ou dans le cloud. Les stratégies d’intégration des systèmes qui couvrent les sites du cloud et en périphérie sont appelées « cloud-in » ou « edge-out », les deux ayant des implications pour les performances, la sécurité et les opérations.
L’Edge AI consiste à déployer l’IA sur des appareils distants pour permettre le traitement et la prise de décision en temps réel à la périphérie du réseau ou dans des environnements décentralisés. Ces systèmes peuvent largement analyser les données localement, sans dépendre de la connectivité réseau ou de la transmission des données à des serveurs centralisés, ce qui permet de réduire la latence et d’accélérer les temps de réponse. Les systèmes d’Edge AI conservent également les données sensibles localement, ce qui réduit le risque de violation de la vie privée ou les risques de sécurité associés à la transmission des données dans le cloud.
Parmi les exemples d’Edge AI, on peut citer les véhicules autonomes qui utilisent l’IA déployée localement pour analyser les données des capteurs afin de prendre des décisions de conduite en temps réel et les appareils domestiques intelligents qui utilisent l’Edge AI pour traiter les commandes vocales ou surveiller les locaux à la recherche d’intrus.
D’autre part, l’IA du cloud se caractérise par le déploiement d’algorithmes et de modèles d’IA sur des serveurs centralisés du cloud, permettant le traitement, l’entraînement et l’inférence de données à grande échelle. Les ressources du cloud apportent d’importantes capacités de calcul, permettant des tâches d’IA complexes telles que l’entraînement à l’apprentissage profond ou l’analyse des big data qui nécessitent une puissance de calcul massive. Les solutions d’IA du cloud peuvent facilement évoluer pour accueillir de grands volumes de données et d’utilisateurs, ce qui les rend adaptées aux applications à haut débit ou aux exigences de ressources intensives.
Les moteurs de recommandation tels que ceux utilisés par Amazon ou Netflix pour proposer aux consommateurs des choix de produits nouveaux ou alternatifs sur la base de nombreuses données d’utilisateurs sont des exemples de systèmes d’IA du cloud à grande échelle qui nécessitent d’importantes ressources informatiques pour fonctionner de manière optimale.
D’autres cas d’utilisation de l’IA englobent à la fois l’Edge AI et l’IA du cloud pour répondre aux besoins spécifiques des clients. Parmi les exemples concrets, citons Sentient.io, un fournisseur de plateformes d’IA et de données basé à Singapour, qui a développé la Sentient Marketplace, un hub de services d’IA innovants qui permet aux entreprises d’intégrer facilement l’IA dans leurs flux de travail existants. Cependant, le succès rapide de la place de marché a impliqué plusieurs défis complexes, notamment la difficulté d’exploiter et de déployer des services d’IA dans des environnements distribués - sur site, sur cloud public, sur cloud privé et en périphérie.
Lorsqu’elles sont exploitées par plusieurs fournisseurs sur les sites des clients, les solutions individuelles des fournisseurs de cloud peuvent proposer des distributions Kubernetes propriétaires, ce qui peut s’avérer décourageant pour les organisations qui ont besoin d’exploiter ces plateformes dans leurs environnements cloud respectifs. Le processus de déploiement des modèles d’IA de Sentient sur les sites des clients était également lourd, car il nécessitait la mise en place d’environnements Kubernetes sur site pour chaque site périphérique, et la gestion manuelle des mises à jour et de la synchronisation des nouveaux modèles. Cela a entraîné une complexité opérationnelle accrue et une orchestration incohérente des flux de travail et des politiques de sécurité.
Sentient.io s’est associé à F5 pour offrir des solutions d’IA « en tant que service », clés en main et de niveau professionnel, à des clients de divers secteurs verticaux, en utilisant F5 Distributed Cloud App Stack, une plateforme Kubernetes aboutie pour l’entreprise qui simplifie les déploiements sur site, dans le cloud et en périphérie. La solution a rationalisé les opérations de Sentient, en réduisant la latence et en permettant le traitement de l’IA en temps réel à la périphérie. La livraison de l’inférence à la périphérie élimine les contraintes de réseau et de bande passante dues à l’emplacement géographique et garantit la livraison immédiate de l’inférence aux applications en temps réel. Ce changement de modèle de déploiement a permis à Sentient.io de fournir des applications d’IA très performantes à ses clients avec un délai de valorisation plus rapide, d’optimiser l’allocation des ressources, de réduire les coûts opérationnels globaux et d’intégrer de manière native des applications et API security.
Cette collaboration a également permis de réaliser d’importantes économies par rapport au processus précédent, qui consistait à gérer manuellement plusieurs plateformes du cloud, ce qui nécessitait des équipes dédiées et entraînait des coûts de ressources substantiels. Grâce à F5 Distributed Cloud Services, Sentient a simplifié ses opérations et réduit ses coûts en optimisant les ressources et en simplifiant la gestion des applications, libérant ainsi des ressources pour d’autres initiatives stratégiques.
L’accès à l’Edge AI implique le déploiement d’une combinaison d’appareils, de technologies, de composants d’infrastructure et d’intégrations pour permettre un accès et une utilisation efficaces des capacités de l’Edge AI du réseau :
Il convient également d’être conscient des défis et des limites suivants en matière de déploiement et d’accès à l’Edge AI.
La protection des données et l’atténuation des risques de sécurité dans les déploiements de l’Edge AI nécessitent une approche holistique qui met l’accent sur une approche multicouche de la sécurité. Bien que l’Edge AI diffère des charges de travail informatiques traditionnelles sur des points importants, tels que sa capacité à apprendre à partir des données et à faire évoluer son comportement en fonction de l’expérience, en termes d’exigences de sécurité, l’Edge AI a beaucoup de points communs avec les systèmes IoT plus conventionnels et partage bon nombre des mêmes risques, notamment :
Pour un examen approfondi des risques de sécurité liés au déploiement et à la gestion de systèmes d’IA basés sur des LLM, y compris les applications d’IA de pointe, consultez le OWASP Top 10 pour les applications de grands modèles de langage, qui sensibilise à leurs vulnérabilités, propose des stratégies de remédiation et cherche à améliorer la posture de sécurité des applications LLM.
En raison de son emplacement à la périphérie du réseau ou dans d’autres lieux distants, il est important d’optimiser l’infrastructure d’Edge AI en termes de performances, d’utilisation des ressources, de sécurité et d’autres considérations. Cependant, l’optimisation de l’efficacité et des performances pour les appareils à ressources limitées peut s’avérer difficile, car la minimisation des besoins en calcul, en mémoire et en énergie tout en maintenant des performances acceptables implique souvent des compromis.
Plusieurs stratégies existent pour optimiser les performances de calcul à la périphérie tout en limitant la consommation d’énergie. La mise en œuvre de techniques d’économie d’énergie telles que les modes basse consommation, les états de veille ou la mise à l’échelle dynamique de la tension et de la fréquence (DVFS) peut contribuer à réduire la consommation d’énergie. Les accélérateurs matériels tels que les GPU et les DPU peuvent décharger le CPU des tâches intensives en calcul, améliorant ainsi la vitesse d’inférence. Utilisez des techniques telles que la mise en lots dynamique, l’inférence adaptative ou l’éparpillement des modèles pour optimiser l’utilisation des ressources tout en maintenant les performances. Les tâches moins intensives peuvent être traitées par les ressources du CPU, soulignant l’importance de la mise en commun des ressources dans les architectures hautement distribuées.
Les dispositifs d’Edge AI disposent souvent de ressources informatiques limitées, ce qui rend nécessaire le déploiement de modèles d’IA légers optimisés pour les dispositifs en périphérie. Cela peut signifier trouver un équilibre entre la complexité du modèle, la précision et la vitesse d’inférence lors de la sélection du modèle le plus adapté aux ressources du dispositif et aux exigences de l’application. Des techniques telles que la quantification du modèle, l’élagage et la distillation des connaissances peuvent aider à réduire la taille des modèles d’IA sans perte significative de performance.
Le « périmètre dissolvant » fait référence à la façon dont les frontières traditionnelles du réseau deviennent moins définies en raison de facteurs tels que les appareils mobiles, le cloud computing et l’edge computing. Dans le contexte de l’Edge AI, le périmètre dissolvant signifie que les appareils d’Edge AI sont généralement déployés dans des environnements de réseau distants et dynamiques à la périphérie du réseau et fonctionnent en dehors des environnements de centre de données ou du cloud et au-delà des mesures de sécurité traditionnelles basées sur le périmètre telles que les pare-feu ou les systèmes de détection d’intrusion. Par conséquent, la sécurité de l’Edge AI a des exigences particulières et doit être optimisée pour protéger contre les menaces telles que l’accès non autorisé dans des endroits isolés et à travers des environnements complexes et distribués qui font de la gestion et de la visibilité de la sécurité un véritable défi.
En outre, les API constituent le tissu conjonctif qui permet aux différentes parties des applications d’IA d’échanger des données et des instructions. La protection de ces connexions API et des données qui y transitent est un défi de sécurité critique auquel les entreprises doivent faire face lorsqu’elles déploient des applications basées sur l’IA, ce qui nécessite le déploiement de services Web App and API Protection qui découvrent dynamiquement et protègent automatiquement les points de terminaison contre une variété de risques.
Les LLM sont des modèles d’intelligence artificielle basés sur de grandes quantités de données textuelles et formés pour comprendre et générer des résultats en langage naturel avec une fluidité et une cohérence remarquables, comparables à celles des humains. Les LLM, qui sont au cœur des applications d’IA générative, sont généralement formés à partir de données d’entrée et de contenus systématiquement récupérés sur Internet, notamment des livres en ligne, des messages, des sites web et des articles. Cependant, ces données d’entrée sont susceptibles d’être attaquées par des acteurs malveillants qui manipulent intentionnellement les données d’entrée pour induire en erreur ou compromettre les performances des modèles d’IA générative, ce qui entraîne des vulnérabilités, des biais, des résultats non fiables, des violations de la vie privée et l’exécution de codes non autorisés.
Les plus grands risques concernant les grands modèles de langage impliquent :
Pour relever ces défis de sécurité, il faut une approche à plusieurs facettes qui empêche les prompt injection et utilise des techniques telles que l’assainissement d’invite, la validation d’entrée et le filtrage d’invite pour s’assurer que le modèle n’est pas manipulé par des entrées malveillantes. Pour contrer les attaques DoS, il faut créer une stratégie de défense à plusieurs niveaux qui inclut la limitation du taux, la détection d’anomalie et l’analyse comportementale pour détecter et identifier les activités suspectes ou malveillantes du réseau. L’industrie continue d’évoluer pour gérer efficacement ces risques, ce qui conduit à un développement rapide des proxys LLM, des pare-feu, des passerelles et des intergiciels sécurisés dans les piles d’applications.
L’Edge AI fait partie d’un ensemble de technologies en évolution rapide à la périphérie du réseau, qui ouvre une nouvelle ère d’environnements informatiques intelligents, réactifs et plus efficaces. Ces technologies, à la jonction des progrès en matière de processeurs, de réseaux, de logiciels et de sécurité, ouvrent de nouvelles possibilités d’innovation et de transformation dans tous les secteurs. Ces cas d’utilisation de l’Edge Computing tirent parti de l’analyse et de la prise de décision en temps réel à la périphérie du réseau, ce qui permet aux organisations de traiter et d’analyser les données plus près de leur source et d’améliorer les temps de réponse pour les applications sensibles à la latence ou d’assurer la diffusion de contenu en temps réel.
La distribution des ressources informatiques à la périphérie du réseau permet également aux organisations de s’adapter rapidement à l’évolution de la charge de travail et d’optimiser l’utilisation des ressources afin d’améliorer les performances et l’efficacité globales du système. Ces possibilités sont dues en partie à l’évolution des composants spécialement conçus pour l’infrastructure d’edge computing, tels que les serveurs de périphérie, les plateformes et bibliothèques d’edge computing et les processeurs d’IA sur puce qui fournissent les ressources de calcul, de stockage et de mise en réseau nécessaires pour prendre en charge les applications d’Edge AI.
L’Edge AI a joué un rôle essentiel dans la renaissance de l’infrastructure en périphérie du réseau, et l’intégration de l’IA à l’IoT continue de favoriser la prise de décision intelligente en périphérie, propulsant des applications révolutionnaires dans les domaines de la santé, de l’automatisation industrielle, de la robotique, de l’infrastructure intelligente, et bien plus encore.
TinyML est une approche de la ML et de l’IA qui se concentre en partie sur la création de modèles et d’algorithmes ML de logiciels légers, qui sont optimisés pour être déployés sur des dispositifs en périphérie à ressources limitées tels que les microcontrôleurs et les dispositifs d’Edge AI. Les algorithmes basés sur TinyML sont conçus pour être économes en énergie et capables d’exécuter des tâches d’inférence localement sans dépendre de ressources cloud.
En outre, les processeurs compacts et puissants tels que les DPU, qui sont des composants matériels spécialisés conçus pour décharger et accélérer les tâches de traitement des données du CPU, sont de plus en plus utilisés dans les charges de travail d’edge computing et d’IA/ML, où le traitement efficace de grandes quantités de données est crucial pour la performance et l’évolutivité. Cette efficacité est particulièrement précieuse dans les environnements d’edge computing où les contraintes de puissance peuvent limiter l’utilisation de solutions GPU à forte consommation d’énergie.
Une nouvelle génération de solutions de mise en réseau reliant ces innovations dans un continuum périphérie-cloud-centre de données permet le traitement, l’analyse et l’observabilité transparents des données dans des architectures distribuées, y compris des ressources informatiques de cloud hybride, de multi-cloud et d’edge computing. Ces réseaux s’appuieront de plus en plus sur les API, qui sont des composants essentiels des plateformes edge computing, car elles facilitent la communication, l’intégration et l’automatisation pour permettre l’échange et la synchronisation transparents des données dans des environnements informatiques distribués. Les API permettent également l’interopérabilité entre divers dispositifs, systèmes et services périphériques en fournissant des interfaces normalisées, ce qui permet également le provisionnement, la gestion et le contrôle dynamiques des ressources et des services périphériques.
Dans ces architectures distribuées à grande échelle, les données peuvent être traitées et analysées en toute sécurité en de multiples points du continuum, depuis les périphériques situés à proximité des sources de données jusqu’aux serveurs cloud centralisés - ou dispersés - situés dans les centres de données. Ce continuum « edge-to-everywhere » permet aux organisations d’exploiter en toute sécurité les atouts de plusieurs environnements informatiques et d’intégrer des charges de travail traditionnelles et d’intelligence artificielle pour répondre aux diverses exigences des applications modernes.
F5 est le seul fournisseur de solutions qui sécurise, fournit et optimise n’importe quelle application, n’importe quelle API, n’importe où, dans le continuum des environnements distribués, y compris les applications d’IA à la périphérie du réseau. Les applications basées sur l’IA sont les plus modernes des applications modernes, et bien qu’il y ait des considérations spécifiques pour les systèmes qui emploient GenAI, tels que les risques LLM et l’inférence distribuée, ces applications sont également sujettes à la latence, au déni de service, aux vulnérabilités logicielles et à l’abus par des acteurs malveillants utilisant des bots et une automatisation malveillante.
Les nouvelles expériences numériques basées sur l’IA sont hautement distribuées, avec un mélange de sources de données, de modèles et de services qui se développent dans des environnements sur site, dans le cloud et en périphérie, tous connectés par un réseau croissant d’API qui ajoutent des défis de sécurité importants. La protection de ces connexions API et des données qui les traversent est le défi de sécurité critique auquel les entreprises doivent faire face à mesure qu’elles déploient davantage de services basés sur l’IA.
F5 Distributed Cloud Services offre la solution API Security la plus complète et la plus aboutie pour l’IA, avec des tests de code API et des analyses de télémétrie pour aider à protéger contre les menaces sophistiquées alimentées par l’IA, tout en facilitant la sécurisation et la gestion des environnements d’applications multicloud et en périphérie. Les solutions F5 Multi-Cloud Networking offrent des services de mise en réseau en mode SaaS avec optimisation du trafic et des services de sécurité pour les clouds publics et privés et les déploiements de périphérie via une console unique, ce qui allège la charge de gestion des services dépendants du cloud et de plusieurs fournisseurs tiers. Avec les solutions réseau F5, vous bénéficiez de déploiements accélérés de l’IA, d’une gestion des politiques de bout en bout et d’une observabilité pour une infrastructure entièrement automatisable et fiable.
En outre, la nouvelle F5 AI Data Fabric est une base pour construire des solutions innovantes qui aident les clients à prendre des décisions plus éclairées et à agir plus rapidement. La télémétrie des Distributed Cloud Services, de BIG-IP et de NGINX se combine pour fournir des informations inégalées, produire des rapports en temps réel, automatiser les actions et alimenter les agents d’IA.
F5 lance également un assistant IA qui changera la façon dont les clients interagissent avec les solutions F5 et les gèrent à l’aide d’une interface en langage naturel. Alimenté par la F5 AI Data Fabric, l’assistant IA générera des visualisations de données, identifiera les anomalies, interrogera et générera des configurations de politiques, et appliquera des étapes de remédiation. Il agira également comme un gestionnaire de support client intégré, permettant aux clients de poser des questions et de recevoir des recommandations basées sur l’entraînement de modèles sur des bases de connaissances de produits entiers.
En alimentant et en protégeant vos applications basées sur l’IA, du centre de données à la périphérie, les solutions F5 fournissent des outils puissants qui offrent des performances et une sécurité prévisibles afin que vous puissiez tirer la plus grande valeur de vos investissements dans l’IA.