Edge AI représente le déploiement d’algorithmes et de modèles d’intelligence artificielle dans un environnement informatique de pointe, qui rapproche la puissance de calcul et l’intelligence du lieu de prise de décision, en partie pour compenser un flux de communication continu entre les sites de pointe et le cloud. Edge AI permet aux appareils situés à la périphérie du réseau de traiter les données localement, ce qui permet une prise de décision en temps réel sans dépendre de connexions Internet ou de serveurs cloud centralisés pour le traitement, augmentant la vitesse de calcul et améliorant la confidentialité et la sécurité des données.
Edge AI est la convergence de plusieurs technologies, notamment l'intelligence artificielle, l'Internet des objets (IoT), l'informatique de pointe et les systèmes embarqués, chacun jouant un rôle crucial pour permettre un traitement et une prise de décision intelligents à la périphérie du réseau. Edge AI implique l'utilisation d'algorithmes intégrés pour surveiller l'activité d'un système distant, ainsi que le traitement des données collectées par des appareils tels que des capteurs et d'autres trackers de données non structurées, notamment la température, la langue, les visages, les mouvements, les images, la proximité et d'autres entrées analogiques.
Ces systèmes distants peuvent prendre de nombreuses formes, notamment des capteurs, des smartphones, des appareils IoT, des drones, des caméras et même des véhicules et des appareils intelligents. Les données collectées à partir de ces systèmes servent d’entrée aux algorithmes d’IA de pointe, fournissant des informations précieuses sur l’état du système ou de son environnement, permettant aux systèmes d’IA de pointe de réagir rapidement aux changements ou aux anomalies et de comprendre l’environnement dans lequel ils opèrent. Ces applications d’IA de pointe seraient peu pratiques, voire impossibles à exploiter dans un environnement de cloud centralisé ou de centre de données d’entreprise en raison de problèmes liés au coût, à la latence, à la bande passante, à la sécurité et à la confidentialité.
Edge AI englobe un large éventail de cas d'utilisation, notamment :
Il existe deux principaux paradigmes pour le déploiement d’algorithmes et de modèles d’IA : en périphérie ou dans le cloud. Les stratégies d’intégration de systèmes couvrant les sites cloud et périphériques sont appelées « cloud-in » ou « edge-out », les deux ayant des implications sur les performances, la sécurité et les opérations.
Edge AI implique le déploiement de l’IA sur des appareils distants pour permettre le traitement et la prise de décision en temps réel à la périphérie du réseau ou dans des environnements décentralisés. Ces systèmes peuvent analyser en grande partie les données localement, sans dépendre de la connectivité réseau ni de la transmission de données à des serveurs centralisés, ce qui entraîne une latence plus faible et des temps de réponse plus rapides. Les systèmes Edge AI conservent également les données sensibles localement, réduisant ainsi le risque de violation de la confidentialité ou de risques de sécurité associés à la transmission de données vers le cloud.
Les exemples d’IA de pointe incluent les véhicules autonomes qui utilisent l’IA déployée localement pour analyser les données des capteurs afin de prendre des décisions de conduite en temps réel et les appareils domestiques intelligents qui utilisent l’IA de pointe pour traiter les commandes vocales ou surveiller les locaux à la recherche d’intrus.
D’autre part, l’IA cloud se caractérise par le déploiement d’algorithmes et de modèles d’IA sur des serveurs cloud centralisés, permettant le traitement, la formation et l’inférence de données à grande échelle. Les ressources cloud apportent des capacités de calcul importantes, permettant des tâches d’IA complexes telles que la formation en apprentissage profond ou l’analyse de Big Data qui nécessitent une puissance de calcul massive. Les solutions d’IA cloud peuvent facilement évoluer pour prendre en charge de grands volumes de données et d’utilisateurs, ce qui les rend adaptées aux applications à haut débit ou nécessitant beaucoup de ressources.
Les moteurs de recommandation tels que ceux utilisés par Amazon ou Netflix pour proposer aux consommateurs des choix de produits nouveaux ou alternatifs basés sur de vastes données utilisateur sont des exemples de systèmes d’IA cloud à grande échelle qui nécessitent des ressources de calcul importantes pour fonctionner de manière optimale.
D’autres cas d’utilisation de l’IA englobent à la fois l’IA de pointe et l’IA cloud pour répondre aux besoins spécifiques des clients. Exemples de la vie réelle inclure Sentient.io, un fournisseur de plateforme d'IA et de données basé à Singapour, qui a développé Sentient Marketplace, un centre de services d'IA innovants qui permet aux entreprises d'intégrer facilement l'IA dans leurs flux de travail existants. Cependant, le succès rapide du marché a présenté plusieurs défis complexes, notamment la difficulté d’exploiter et de déployer des services d’IA dans des environnements distribués : sur site, dans le cloud public, dans le cloud privé et en périphérie.
Lorsqu'elles fonctionnent avec plusieurs fournisseurs sur les sites des clients, les solutions individuelles des fournisseurs de cloud peuvent proposer des distributions Kubernetes propriétaires, ce qui peut s'avérer intimidant pour les organisations qui doivent exploiter ces plates-formes dans leurs environnements cloud respectifs. Le processus de déploiement des modèles d’IA de Sentient sur les sites des clients était également fastidieux, car il nécessitait la configuration d’environnements Kubernetes sur site pour chaque site périphérique et la gestion manuelle des mises à jour et de la synchronisation des nouveaux modèles. Cela a entraîné une complexité opérationnelle accrue et une orchestration des flux de travail et des politiques de sécurité incohérentes.
Sentient.io s'est associé à F5 pour proposer des solutions d'IA « en tant que service » clés en main et de qualité professionnelle à des clients de divers secteurs verticaux à l'aide de F5 Distributed Cloud App Stack, une plate-forme Kubernetes prête pour l'entreprise qui simplifie les déploiements sur site, dans le cloud et en périphérie. La solution a rationalisé les opérations de Sentient, réduisant la latence et permettant un traitement de l'IA en temps réel à la périphérie. La fourniture d’inférences à la périphérie élimine les contraintes de réseau et de bande passante dues à la situation géographique et garantit une livraison immédiate des inférences aux applications en temps réel. Ce changement dans le déploiement du modèle a permis à Sentient.io de fournir à ses clients des applications d'IA hautement performantes avec un délai de rentabilisation plus rapide, d'optimiser l'allocation des ressources, de réduire les coûts opérationnels globaux et d'intégrer nativement la sécurité des applications et des API.
Cette collaboration a également permis de réaliser d’importantes économies par rapport au processus précédent de gestion manuelle de plusieurs plateformes cloud, qui nécessitait des équipes dédiées et générait des coûts de ressources substantiels. Avec F5 Distributed Cloud Services, Sentient a simplifié ses opérations, réduit les coûts en optimisant les ressources et en simplifiant la gestion des applications, libérant ainsi des ressources pour d'autres initiatives stratégiques ou à confirmer.
L’accès à l’IA de pointe implique le déploiement d’une combinaison d’appareils, de technologies, de composants d’infrastructure et d’intégrations pour permettre un accès et une utilisation efficaces des capacités de l’IA à la périphérie du réseau. Il s’agit notamment de :
Soyez également conscient des défis et des limitations suivants en matière de déploiement et d’accès à l’IA de pointe.
La protection des données et l’atténuation des risques de sécurité dans les déploiements d’IA de pointe nécessitent une approche holistique qui met l’accent sur une approche multicouche de la sécurité. Bien que l'IA de pointe diffère des charges de travail informatiques traditionnelles de plusieurs manières importantes, notamment par sa capacité à apprendre à partir des données et à faire évoluer le comportement en fonction de l'expérience, en termes d'exigences de sécurité, l'IA de pointe a beaucoup en commun avec les systèmes IoT plus conventionnels et partage bon nombre des mêmes risques, notamment :
Pour un examen approfondi des risques de sécurité liés au déploiement et à la gestion des systèmes d'IA basés sur des LLM, y compris les applications d'IA de pointe, consultez le Top 10 de l'OWASP pour les applications de modèles de langage volumineux , qui favorise la sensibilisation à leurs vulnérabilités, suggère des stratégies de correction et cherche à améliorer la posture de sécurité des applications LLM.
En raison de son emplacement à la périphérie du réseau ou à d’autres emplacements distants, il est important d’optimiser l’infrastructure d’IA de périphérie en termes de performances, d’utilisation des ressources, de sécurité et d’autres considérations. Cependant, l’optimisation de l’efficacité et des performances des appareils aux ressources limitées peut s’avérer difficile, car la minimisation des besoins en calcul, en mémoire et en énergie tout en maintenant des performances acceptables implique souvent des compromis.
Plusieurs stratégies existent pour optimiser les performances de calcul en périphérie tout en limitant la consommation d'énergie. La mise en œuvre de techniques d’économie d’énergie telles que les modes basse consommation, les états de veille ou la mise à l’échelle dynamique de tension et de fréquence (DVFS) peut contribuer à réduire la consommation d’énergie. Les accélérateurs matériels tels que les GPU et les DPU peuvent décharger les tâches gourmandes en calcul du CPU, améliorant ainsi la vitesse d'inférence. Utilisez des techniques telles que le traitement par lots dynamique, l’inférence adaptative ou la parcimonie des modèles pour optimiser l’utilisation des ressources tout en maintenant les performances. Les tâches moins intensives peuvent être gérées par les ressources du processeur, ce qui souligne l’importance de la mise en commun des ressources dans les architectures hautement distribuées.
Les appareils Edge AI disposent souvent de ressources de calcul limitées, ce qui rend nécessaire le déploiement de modèles d’IA légers optimisés pour les appareils Edge. Cela peut impliquer de trouver un équilibre entre la complexité du modèle, la précision et la vitesse d'inférence lors de la sélection du modèle le plus adapté aux ressources de l'appareil et aux exigences de l'application. Des techniques telles que la quantification des modèles, l’élagage et la distillation des connaissances peuvent aider à réduire la taille des modèles d’IA sans perte significative de performances.
Le « périmètre de dissolution » fait référence à la manière dont les limites traditionnelles des réseaux deviennent moins définies en raison de facteurs tels que les appareils mobiles, le cloud et l'informatique de pointe. Dans le contexte de l'IA de pointe, le périmètre de dissolution signifie que les appareils d'IA de pointe sont généralement déployés dans des environnements réseau distants et dynamiques à la périphérie du réseau et fonctionnent en dehors des environnements de centre de données ou de cloud et au-delà des mesures de sécurité traditionnelles basées sur le périmètre telles que les pare-feu ou les systèmes de détection d'intrusion. Par conséquent, la sécurité de l’IA de pointe a des exigences particulières et doit être optimisée pour se protéger contre les menaces telles que l’accès non autorisé dans des emplacements isolés et dans des environnements complexes et distribués qui font de la gestion de la sécurité et de la visibilité un défi.
En outre, les API fournissent le tissu conjonctif qui permet à plusieurs parties d’applications d’IA d’échanger des données et des instructions. La protection de ces connexions API et des données qui les traversent constitue un défi de sécurité critique auquel les entreprises doivent faire face lorsqu'elles déploient des applications compatibles avec l'IA, nécessitant le déploiement de services de protection d'applications Web et d'API qui découvrent dynamiquement et protègent automatiquement les points de terminaison contre une variété de risques.
Les LMM sont des modèles d’intelligence artificielle basés sur de vastes quantités de données textuelles et formés pour comprendre et générer des sorties en langage naturel avec une fluidité et une cohérence remarquables, semblables à celles des humains. Les LLM, qui sont au cœur des applications d’IA générative, sont généralement formés à partir de données d’entrée et de contenu systématiquement extraits d’Internet, notamment de livres, de publications, de sites Web et d’articles en ligne. Cependant, ces données d’entrée sont sujettes à des attaques de la part d’acteurs malveillants qui manipulent intentionnellement les données d’entrée pour induire en erreur ou compromettre les performances des modèles d’IA génératifs, ce qui entraîne des vulnérabilités, des biais, des résultats peu fiables, des violations de la vie privée et l’exécution de code non autorisé.
Parmi les principaux risques de sécurité pour les LLM, on trouve :
Pour relever ces défis de sécurité, il faut une approche à multiples facettes qui empêche les injections rapides et utilise des techniques telles que la désinfection rapide, la validation des entrées et le filtrage rapide pour garantir que le modèle n'est pas manipulé par des entrées conçues de manière malveillante. Pour contrer les attaques DoS, créez une stratégie de défense en couches qui inclut la limitation du débit, la détection des anomalies et l’analyse comportementale pour détecter et identifier les activités réseau suspectes ou malveillantes. L’industrie continue d’évoluer pour gérer efficacement ces risques, ce qui conduit à un développement rapide de proxys LLM, de pare-feu, de passerelles et de middleware sécurisés au sein des piles d’applications.
Edge AI fait partie d’un ensemble de technologies en évolution rapide à la périphérie du réseau, qui inaugure une nouvelle ère d’environnements informatiques intelligents, réactifs et plus efficaces. Ces technologies, à la croisée des progrès en matière de processeurs, de réseaux, de logiciels et de sécurité, ouvrent de nouvelles possibilités d’innovation et de transformation dans tous les secteurs. Ces cas d’utilisation de l’informatique de pointe tirent parti des analyses et de la prise de décision en temps réel à la périphérie du réseau, permettant aux organisations de traiter et d’analyser les données plus près de leur source et d’améliorer les temps de réponse des applications sensibles à la latence ou de garantir la diffusion de contenu en temps réel.
La distribution des ressources informatiques sur l’ensemble du réseau permet également aux organisations de s’adapter rapidement aux exigences changeantes de la charge de travail et d’optimiser l’utilisation des ressources pour améliorer les performances et l’efficacité globales du système. Ces possibilités sont dues en partie à l’évolution des composants spécialement conçus pour l’infrastructure informatique de pointe, tels que les serveurs de pointe, les plateformes et bibliothèques d’informatique de pointe et les processeurs d’IA sur puce qui fournissent les ressources de calcul, de stockage et de réseau nécessaires pour prendre en charge les applications d’IA de pointe.
L'IA de pointe a joué un rôle essentiel dans la renaissance de l'infrastructure à la périphérie du réseau, et l'intégration de l'IA à l'IoT continue de favoriser la prise de décision intelligente à la périphérie, propulsant des applications révolutionnaires dans les domaines de la santé, de l'automatisation industrielle, de la robotique, de l'infrastructure intelligente, etc.
TinyML est une approche du ML et de l'IA qui se concentre en partie sur la création de modèles et d'algorithmes de ML logiciels légers, optimisés pour le déploiement sur des périphériques à ressources limitées tels que les microcontrôleurs et les périphériques d'IA de pointe. Les algorithmes basés sur TinyML sont conçus pour être économes en énergie et capables d'exécuter des tâches d'inférence localement sans dépendre des ressources cloud.
De plus, les processeurs compacts et puissants tels que les DPU, qui sont des composants matériels spécialisés conçus pour décharger et accélérer les tâches de traitement de données du processeur, sont de plus en plus utilisés dans les charges de travail de calcul de pointe et d'IA/ML, où le traitement efficace de grandes quantités de données est crucial pour les performances et l'évolutivité. Cette efficacité est particulièrement précieuse dans les environnements informatiques de pointe où les contraintes d’alimentation peuvent limiter l’utilisation de solutions GPU gourmandes en énergie.
La liaison de ces innovations dans un continuum de périphérie à cloud et à centre de données constitue une nouvelle génération de solutions réseau qui permettent un traitement, une analyse et une observabilité des données transparents sur les architectures distribuées, y compris les ressources hybrides, multicloud et edge computing. Ces réseaux s’appuieront de plus en plus sur les API, qui sont des composants essentiels des plateformes informatiques de pointe, car elles facilitent la communication, l’intégration et l’automatisation pour permettre un échange et une synchronisation de données transparents au sein d’environnements informatiques distribués. Les API permettent également l’interopérabilité entre divers périphériques, systèmes et services de périphérie en fournissant des interfaces standardisées, qui permettent également le provisionnement, la gestion et le contrôle dynamiques des ressources et des services de périphérie.
Dans ces architectures distribuées à grande échelle, les données peuvent être traitées et analysées en toute sécurité à plusieurs points du continuum, allant des périphériques périphériques situés à proximité des sources de données aux serveurs cloud centralisés ou dispersés situés dans des centres de données. Ce continuum de bout en bout permet aux organisations d’exploiter en toute sécurité les atouts de plusieurs environnements informatiques et d’intégrer les charges de travail traditionnelles et IA pour répondre aux diverses exigences des applications modernes.
F5 est le seul fournisseur de solutions qui sécurise, fournit et optimise n'importe quelle application, n'importe quelle API, n'importe où, sur l'ensemble du continuum des environnements distribués, y compris les applications d'IA à la périphérie du réseau. Les applications basées sur l'IA sont les plus modernes des applications modernes, et bien qu'il existe des considérations spécifiques pour les systèmes qui utilisent GenAI, tels que les risques LLM et l'inférence distribuée, ces applications sont également sujettes à la latence, au déni de service, aux vulnérabilités logicielles et aux abus par de mauvais acteurs utilisant des robots et une automatisation malveillante.
Les nouvelles expériences numériques basées sur l’IA sont hautement distribuées, avec un mélange de sources de données, de modèles et de services qui s’étendent sur les environnements sur site, dans le cloud et en périphérie, tous connectés par un réseau en expansion d’API qui ajoutent des défis de sécurité importants. La protection de ces connexions API et des données qui les traversent constitue le défi de sécurité critique auquel les entreprises doivent faire face lorsqu’elles déploient davantage de services basés sur l’IA.
F5 Distributed Cloud Services offre la solution de sécurité API la plus complète et compatible avec l'IA du secteur, avec des tests de code API et une analyse de télémétrie pour aider à se protéger contre les menaces sophistiquées alimentées par l'IA, tout en facilitant la sécurisation et la gestion des environnements d'applications multicloud et edge. Les solutions de mise en réseau multicloud F5 offrent une mise en réseau basée sur SaaS avec optimisation du trafic et des services de sécurité pour les clouds publics et privés et les déploiements périphériques via une console unique, allégeant ainsi la charge de gestion des services dépendants du cloud et de plusieurs fournisseurs tiers. Avec les solutions réseau F5, vous bénéficiez de déploiements d'IA accélérés, d'une gestion des politiques de bout en bout et d'une observabilité pour une infrastructure entièrement automatisable et fiable.
En outre, le nouveau F5 AI Data Fabric constitue une base pour la création de solutions innovantes qui aident les clients à prendre des décisions plus éclairées et à agir plus rapidement. La télémétrie des services cloud distribués, BIG-IP et NGINX se combinent pour fournir des informations inégalées, produire des rapports en temps réel, automatiser les actions et alimenter les agents d'IA.
F5 lance également un assistant IA qui changera la façon dont les clients interagissent avec les solutions F5 et les gèrent à l'aide d'une interface en langage naturel. Alimenté par F5 AI Data Fabric, l'assistant IA générera des visualisations de données, identifiera les anomalies, interrogera et générera des configurations de politiques et appliquera des étapes de correction. Il agira également comme un gestionnaire de support client intégré, permettant aux clients de poser des questions et de recevoir des recommandations basées sur la formation modèle de bases de connaissances produit complètes.
En alimentant et en protégeant vos applications basées sur l'IA, du centre de données à la périphérie, les solutions F5 fournissent des outils puissants qui offrent des performances et une sécurité prévisibles afin que vous puissiez tirer le meilleur parti de vos investissements en IA.