Imagine ser um especialista que vende informações para viver; as pessoas pagam para lhe fazer perguntas. De repente, uma máquina suga essa expertise da sua mente, aprende a responder perguntas mais rápido que você e tira seu sustento. Com o surgimento da IA generativa , as empresas com modelos de negócios baseados em conteúdo enfrentam precisamente esse dilema.
Podemos não saber aonde a Gen AI nos levará, mas está claro que ela transformará a maneira como consumimos conteúdo e, ao fazê-lo, interromperá empresas que dependem da distribuição de conteúdo — semelhante a como a Internet transformou nosso consumo de notícias e entretenimento, devastando muitos veículos de notícias tradicionais.
A disrupção da Gen AI impactará empresas que vendem conteúdo, como mídia, notícias e fotos de banco de imagens, bem como empresas que dependem de conteúdo para atrair espectadores para anúncios pagos. A disrupção também impactará empresas que atraem clientes em potencial para promover produtos e serviços, para construir identidade de marca e relacionamentos com clientes, ou para mover clientes com um chamado à ação.
Embora o rastreamento de conteúdo para pesquisa tenha surgido nos primórdios da web, aplicativos baseados em LLM, como o ChatGPT, funcionam de uma maneira fundamentalmente diferente. Os mecanismos de busca fornecem resumos com links para o conteúdo original, agregando valor ao tornar o conteúdo detectável. Por outro lado, aplicativos baseados em bate-papo alimentados por LLMs não necessariamente fornecem links de volta ao conteúdo original; em vez disso, eles convidam os usuários a permanecer no bate-papo, aprendendo mais por meio de novos prompts, drenando todo o valor da empresa que criou o conteúdo.
As organizações não podem confiar somente no arquivo robots.txt , que permite que as organizações declarem um escopo para rastreadores, porque nem todas as organizações que rastreiam conteúdo para treinamento de LLMs respeitarão o arquivo robots.txt. É discutível se os LLMs apenas copiam e reproduzem conteúdo ou sintetizam conteúdo como qualquer criador. A importância da lei de direitos autorais para a extração de LLM está agora sendo discutida nos tribunais. É difícil dizer como as leis e normas evoluirão, mas as organizações devem começar a pensar agora sobre como proteger o conteúdo do qual seus negócios dependem.
A raspagem pode ser mitigada, embora não seja fácil. Na verdade, não é um problema novo. Os scrapers têm buscado coletar dados competitivos sobre companhias aéreas , redes de varejo e hotéis por meio de scraping de tarifas, preços e taxas. Essas empresas não querem apenas evitar a perda de dados competitivos, mas a carga de tráfego dos scrapers — especialmente aqueles que buscam os dados mais atualizados — pode adicionar até 98% de todo o tráfego para um site em alguns casos, afetando o desempenho e até mesmo derrubando sites.
Os scrapers usam bots para automatizar a coleta de dados. Infelizmente, mecanismos tradicionais para mitigar bots, como CAPTCHA e listas de negação de endereços IP, são ineficazes contra bots scraper. Como a raspagem é geralmente considerada legal, vários serviços online estão disponíveis para contornar o CAPTCHA. Usando aprendizado de máquina ou fazendas de cliques para resolver os CAPTCHAs , esses serviços são rápidos e baratos, e muito mais eficientes do que a maioria de nós em decifrar esses quebra-cabeças irritantes. A alternativa mais fácil ao CAPTCHA, as listas de negação de IP, também são ineficazes devido aos serviços disponíveis para scrapers. Esses serviços permitem que os scrapers emitam suas solicitações por meio de dezenas de milhões de endereços IP residenciais, um número tão grande e crescente que manter listas de negação é completamente inviável.
Até mesmo muitas soluções especializadas de gerenciamento de bots têm dificuldades com scraping porque essas soluções dependem de instrumentação para coleta de sinais. Um exemplo típico é o login. O navegador primeiro emite uma solicitação HTTP GET para recuperar uma página da web que contém um formulário de login. Nessa página, o JavaScript é executado em segundo plano, coletando dados sobre o navegador e os padrões de digitação e movimento do mouse do usuário. Quando o usuário envia suas credenciais, o JavaScript insere os dados do sinal na solicitação HTTP POST, que a solução de gerenciamento de bots, agindo como um proxy reverso, intercepta e analisa para determinar se o agente que faz a solicitação é um bot.
Muitos sites de conteúdo, no entanto, não exigem uma combinação de GET e POST para acessar o conteúdo, sejam postagens de blog, notícias ou preços. Em vez disso, uma única solicitação HTTP GET retorna tudo o que o scraper deseja, eliminando a chance de instrumentação.
Sabemos que muitas soluções de gerenciamento de bots não conseguem proteger a coleta de dados porque há vários serviços que fornecem acesso fácil à API para coletar dados de conteúdo. O ZenRows , por exemplo, lista os fornecedores anti-bot que eles podem ignorar.
Felizmente, o F5 Distributed Cloud Bot Defense resolve esse problema por meio de uma técnica chamada intersticial, uma página que carrega rapidamente, coleta dados rapidamente e, em seguida, carrega o conteúdo da página solicitada. Ao longo de vários anos defendendo as maiores companhias aéreas e varejistas contra a pirataria, a F5 refinou a técnica para torná-la rápida, eficiente e eficaz. O intersticial é executado apenas uma vez por sessão do usuário porque, uma vez que um agente é identificado como humano, verificações adicionais são desnecessárias, exceto para proteção contra abuso de repetição.
Como a solução de gerenciamento de bots mais eficaz disponível, o Distributed Cloud Bot Defense oferece aos criadores de conteúdo a melhor defesa contra a extração de seu conteúdo para construção de modelos de LLM. Para organizações que desejam proteger seu conteúdo e seus negócios, o Distributed Cloud Bot Defense oferece a melhor opção.