Les études abondent sur l’impatience des consommateurs. Ils abandonneront une application, la supprimeront et se plaindront bruyamment sur les réseaux sociaux si une application fonctionne mal. Et pour beaucoup, mal signifie « répondre en plus de quelques secondes ».
Entrez l’IA générative — qui, selon l’expérience et les références , prend généralement bien plus de quelques secondes pour répondre. Mais, comme lors de nos conversations textuelles avec nos amis et notre famille, pendant que les chatbots « réfléchissent », un « … » animé nous est présenté de manière réfléchie pour indiquer qu’une réponse est imminente.
Pour une raison quelconque, l’animation active une réaction pavlovienne presque numérique qui nous donne envie d’attendre. La raison réside peut-être dans la psychologie de l’anthropomorphisme, qui tend à nous faire considérer avec plus de bienveillance les non-humains dotés d’une personnalité humaine. Ainsi, parce que nous percevons l’IA comme étant au moins semblable à un humain, nous lui accordons la même grâce que nous accorderions, eh bien, à un être humain.
Quelle que soit la raison derrière notre volonté d'attendre l'expérience utilisateur de l'IA d'aujourd'hui, cela soulève la question de savoir jusqu'où ira cette grâce et pour combien de temps ? À mesure que de plus en plus d’applications sont intégrées, augmentées et dotées de capacités d’IA , les questions relatives aux performances acceptables deviennent de plus en plus importantes.
Quel est le niveau de latence acceptable pour une expérience utilisateur d’IA ? L’endroit où cette latence est introduite importe-t-il, ou est-elle seulement acceptable lorsque nous savons qu’une IA générative est impliquée ?
Il s’agit d’un domaine important à examiner car nous savons que l’un des tabous de la sécurité des applications est l’introduction de la latence dans le processus. Malgré la réalité qui nécessite une latence pour inspecter et évaluer le contenu par rapport aux menaces connues (SQLi, code malveillant, injection rapide), les utilisateurs de services de sécurité des applications sont prompts à fermer toute solution qui entraîne une dégradation des performances.
Je vous donne la pièce A, les réponses à une question sur ce sujet tirées de notre enquête 2022 sur l'état de la stratégie d'application , dans laquelle environ 60 % des dirigeants informatiques et commerciaux désactiveraient les contrôles de sécurité pour un gain de performance compris entre 1 % et 50 %.
Il est clair que les performances sont importantes et la latence est considérée comme une très mauvaise chose™. La question devient alors : quel niveau de latence est acceptable pour l’expérience utilisateur de l’IA ? Les anciennes mesures selon lesquelles « la réponse doit être inférieure à X secondes » sont-elles toujours applicables ? Ou bien l’IA repousse-t-elle encore plus loin cette limite pour toutes les applications, ou seulement pour celles qui sont manifestement de l’IA.
Et si notre patience n’est qu’une réaction initiale, due en partie à la nouveauté de l’IA générative, que faisons-nous lorsque la nouveauté s’estompe ?
Si, comme c’est la tendance actuelle, les inférences deviennent plus rapides, peut-être la question sera-t-elle sans objet. Mais si ce n’est pas le cas, les composants et services qui fournissent, sécurisent et prennent en charge l’IA devront-ils être encore plus rapides pour compenser la lenteur de l’inférence ?
Voilà à quelle vitesse l’industrie évolue. Nous avons des questions qui génèrent plus de questions et avant d’avoir des réponses, de nouvelles questions surgissent. L'arriéré de questions sans réponse ressemble à des tickets d'incident dans une entreprise où quelqu'un a débranché un commutateur principal et où tout le personnel informatique est parti pour la journée.
Nous savons que la diffusion et la sécurité des applications vont changer en raison de l'IA. À la fois pour répondre aux besoins de ceux qui souhaitent utiliser l'IA pour améliorer les opérations des clients et des entreprises, et pour ceux qui élaborent les solutions pour eux. Les solutions évidentes (passerelles d’IA, sécurité des données et défenses contre les attaques traditionnelles comme les attaques DDoS ) sont faciles à mettre en œuvre, et nous y travaillons déjà. Mais comprendre l’impact à long terme est une tâche beaucoup plus difficile, surtout lorsqu’il s’agit de performances.
Car l’autre réalité est que le matériel ne nous mènera pas bien loin avant de nous retrouver confrontés à des contraintes physiques, et il appartiendra ensuite au reste de l’industrie de déterminer comment améliorer les performances de ce qui sera certainement un composant essentiel de chaque entreprise.