Web Scraping (auch bekannt als Preis-Scraping, Harvesting, Mining, Spiegelung und Scraper-Bots) bezeichnet den Einsatz automatisierter Tools zur Sammlung großer Datenmengen aus einer Zielanwendung, um diese Daten an anderer Stelle wiederzuverwenden.
Scraping kann sich über eine Bandbreite von gutartig bis bösartig erstrecken, je nach Quelle, Ziel und Häufigkeit der Anfragen. So wird ein Suchmaschinen-Bot, der die in der robot.txt der Website festgelegten Scraping-Raten einhält, wahrscheinlich als akzeptabel angesehen, während das tägliche Abgreifen der Preise durch einen Konkurrenten wohl unerwünscht sein dürfte.
Da die Infrastrukturkosten der Fluggesellschaft durch Scraper in die Höhe getrieben wurden und ihre Fähigkeit zur Umsatzsteuerung darunter litt, wandte sich ihr Sicherheitsteam an F5.
Mit automatisierten Tools, Standard-Skripten oder sogar Scraping-as-a-Service-Anbietern können Angreifer problemlos Skripte erstellen, um Website-Inhalte wie Preise, Angebote, Artikel und Metadaten zu ermitteln und auszulesen.
Ein angesehener Analytiker und Vizepräsident von Gartner Research demonstriert Techniken, die von Angreifern eingesetzt werden, um Benutzer zu imitieren.
Die Bandbreite der Scraping-Kampagnen kann je nach Fähigkeiten und Zielen des Angreifers von dreist bis heimlich reichen. Die Ausführung des Scraping-Skripts kann auf Hunderte oder Tausende von Servern verteilt werden, um sich in die Datenverkehrsmuster der gesamten Benutzerpopulation des Unternehmens einzufügen.
Die Mitglieder Ihres Marketingteams sind unter Umständen die Ersten, die die Symptome der Scraping-Attacken zu spüren bekommen – etwa ein schlechteres Suchranking und niedrigere Konversionsraten.
Die extrahierten Daten können verkauft, für Preisvergleichsseiten verwendet oder sogar zur Erstellung von Seitenimitationen für betrügerische Zwecke genutzt werden.
Selbst wenn es sich bei dem Scraper um einen Partner handelt, wird es dem Unternehmen möglicherweise lieber sein, wenn dieser die Daten von einer speziellen API abruft, statt teure Ressourcen zu verbrauchen, indem er Daten direkt von Webservern anfordert.