El rastreo de webs (también conocido como web scraping, scraping de precios, extracción, minado, replicación y bots de rastreo) se refiere al uso de herramientas automatizadas para recopilar grandes cantidades de datos de una aplicación de destino con el fin de reutilizar esos datos en otro lugar.
El scraping puede ser benigno o malicioso, dependiendo de la fuente, el objetivo y la frecuencia de las solicitudes. Por ejemplo, un bot de un motor de búsqueda que respete los índices de scraping definidos en el archivo robot.txt del sitio probablemente se considerará aceptable, mientras que el scraping de precios diario de un competidor no sea deseado.
Los atacantes aumentaban los costes de infraestructura de la aerolínea y perjudicaban su capacidad de gestionar los ingresos, por lo que el equipo de seguridad se planteó el uso de F5.
Mediante el uso de herramientas automatizadas, scripts estándar o incluso proveedores de scraping como servicio, los atacantes pueden crear fácilmente scripts para descubrir y raspar el contenido del sitio web, incluyendo precios, promociones, artículos y metadatos.
Un distinguido vicepresidente analista de Gartner Research demuestra las técnicas que aprovechan los atacantes para hacerse pasar por usuarios.
Las campañas de scraping pueden ser descaradas o sigilosas, dependiendo de las habilidades y los objetivos del atacante. La ejecución del script de scraping puede distribuirse entre cientos o miles de servidores para mezclarse con los patrones de tráfico de toda la población de usuarios de la empresa.
Su equipo de marketing puede ser el primero en experimentar los síntomas de los ataques de scraping, incluyendo la caída de las clasificaciones de búsqueda y la disminución de las tasas de conversión.
Los datos extraídos pueden venderse, utilizarse para sitios de comparación de precios o incluso para crear sitios de imitación con fines fraudulentos.
Incluso si el atacante es un socio, las empresas pueden preferir que la parte recupere los datos de una API especificada, en lugar de consumir recursos costosos solicitando datos directamente de los servidores web.