Há muitos estudos sobre a impaciência dos consumidores. Eles vão abandonar um aplicativo, deletar um aplicativo e reclamar alto nas redes sociais se um aplicativo tiver um desempenho ruim. E para muitos, mal significa “responde em mais de alguns segundos”.
Entra em cena a IA generativa — que, com base na experiência e em benchmarks , geralmente leva muito mais do que alguns segundos para responder. Mas, assim como em nossas conversas de texto com amigos e familiares, enquanto os chatbots estão "pensando", somos cuidadosamente apresentados a um "..." animado para indicar que uma resposta está próxima.
Por alguma razão, a animação ativa uma reação pavloviana quase digital que nos faz querer esperar. Talvez a razão esteja na psicologia do antropomorfismo, que tende a nos fazer olhar com mais gentileza para os não humanos imbuídos de personalidade semelhante à humana. Assim, como percebemos a IA como pelo menos semelhante à humana, concedemos a ela a mesma graça que concederíamos a um ser humano.
Seja qual for o motivo por trás da nossa disposição de esperar pela experiência atual do usuário de IA, surge a questão sobre até onde essa graça irá e por quanto tempo? À medida que mais e mais aplicativos se tornam integrados, ampliados e imbuídos de recursos de IA , as questões sobre desempenho aceitável se tornam cada vez mais importantes de serem respondidas.
Quanta latência é aceitável para uma experiência de usuário de IA? Importa onde essa latência é introduzida ou ela só é aceitável quando sabemos que há IA generativa envolvida?
Esta é uma área importante a ser examinada porque sabemos que um dos tabus da segurança de aplicativos é a introdução de latência no processo. Apesar da realidade que exige latência para inspecionar e avaliar o conteúdo em relação a ameaças conhecidas (SQLi, código malicioso, injeção rápida), os usuários de serviços de segurança de aplicativos são rápidos em desligar qualquer solução que cause degradação do desempenho.
Apresento a vocês o Anexo A, as respostas a uma pergunta sobre este tópico da nossa pesquisa State of Application Strategy de 2022 , na qual cerca de 60% dos líderes de TI e de negócios desativariam os controles de segurança para um ganho de desempenho entre 1% e 50%.
É claro que o desempenho é importante e a latência é vista como algo muito ruim™. Então, a questão é: quanta latência é aceitável para a experiência do usuário de IA? As antigas medidas de “a resposta deve ser inferior a X segundos” ainda são aplicáveis? Ou a IA está expandindo esse limite para todos os aplicativos ou apenas para aqueles que são obviamente IA?
E se a nossa paciência for apenas uma reação inicial, em parte devido à novidade da IA generativa, o que fazemos quando a novidade acaba?
Se, como é a tendência atual, a inferência se tornar mais rápida, talvez a questão se torne discutível. Mas se isso não acontecer, os componentes e serviços que fornecem, protegem e dão suporte à IA precisarão ser ainda mais rápidos para compensar a lentidão da inferência?
É assim que a indústria está evoluindo. Temos perguntas que geram mais perguntas e, antes de termos respostas, novas perguntas surgem. O acúmulo de perguntas sem resposta parece um tíquete de problemas em uma empresa onde alguém desconectou um switch central e toda a TI foi embora naquele dia.
Sabemos que a entrega e a segurança de aplicativos vão mudar por causa da IA. Tanto nas necessidades daqueles que querem usar IA para aumentar as operações corporativas e de clientes, quanto nas daqueles que criam as soluções para eles. As soluções óbvias — gateways de IA, segurança de dados e defesas contra ataques tradicionais como DDoS — são fáceis de responder, e já estamos trabalhando nisso. Mas entender o impacto a longo prazo é uma tarefa muito mais difícil, especialmente quando se trata de desempenho.
Porque a outra realidade é que o hardware só nos levará até certo ponto antes de encontrarmos restrições físicas, e então caberá ao resto da indústria descobrir como melhorar o desempenho do que certamente será um componente crítico de todos os negócios.