A extração de dados da Web (também conhecida raspagem de dados) refere-se ao uso de ferramentas automatizadas para coletar grandes quantidades de dados de uma aplicação-alvo para reutilizar esses dados em outro lugar.
A extração de dados pode variar de benigna a mal-intencionada, dependendo da origem, objetivo e frequência das solicitações. Por exemplo, um bot de mecanismo de pesquisa que respeita as taxas de extração de dados definidas no robots.txt do site provavelmente será visto como aceitável, enquanto a extração de preço diária de um concorrente é provavelmente indesejada.
Os scrapers estavam aumentando os custos de infraestrutura da companhia aérea e afetando sua capacidade de gerenciar receitas, então a equipe de segurança procurou a F5.
Usando ferramentas automatizadas, scripts prontos para uso ou até mesmo provedores de extração de dados como serviço, os invasores podem facilmente criar scripts para descobrir e extrair o conteúdo do site, incluindo preços, promoções, artigos e metadados.
Um renomado analista VP da Gartner Research demonstra como os invasores utilizam técnicas para se passar por usuários.
Campanhas de extração de dados podem variar de descaradas a furtivas, dependendo do conjunto de habilidades e objetivos do invasor. A execução do script de extração de dados pode ser distribuída entre centenas ou milhares de servidores para se misturar aos padrões de tráfego de toda a população de usuários da empresa.
Sua equipe de marketing pode ser a primeira a experimentar os sintomas de ataques de extração de dados, incluindo classificações de pesquisa caídas e taxas de conversão mais baixas.
Os dados extraídos podem ser vendidos, usados para sites de comparação de preços ou mesmo usados para criar sites de imitação para fins fraudulentos.
Mesmo que o scraper seja um parceiro, as empresas podem preferir que a parte recupere dados de uma API especificada, em vez de consumir recursos caros ao solicitar dados diretamente de servidores Web.