Le ratissage Web (appelé également ratissage de prix, moissonnage, exploration, site miroir et bot de ratissage) fait référence à l’utilisation d’outils automatisés pour collecter de grandes quantités de données à partir d’une application cible, afin de réutiliser ces données ailleurs.
Il peut être bénin ou malveillant, selon la source, l’objectif et la fréquence des demandes. Par exemple, un robot de moteur de recherche qui respecte les taux définis dans le robot.txt du site sera probablement considéré comme acceptable, alors qu’un ratissage quotidien des prix par un concurrent est probablement indésirable.
Le ratissage augmentait les coûts d’infrastructure de la compagnie aérienne et l’affectait dans sa gestion de son chiffre d’affaires. L’équipe de sécurité s’est donc tournée vers la solution F5.
À l’aide d’outils automatisés, de scripts prêts à l’emploi ou même de fournisseurs de services de Scraping, les attaquants peuvent facilement créer des scripts pour découvrir et récupérer le contenu de sites Web, notamment les prix, les promotions, les articles et les métadonnées.
Un vice-président analyste éminent de Gartner Research présente les techniques utilisées par les attaquants pour imiter des utilisateurs.
Les campagnes de Scraping peuvent aller de l’audace à la discrétion, selon les compétences et les objectifs de l’attaquant. L’exécution du script peut être répartie sur des centaines ou des milliers de serveurs afin de se fondre dans le trafic de l’ensemble des utilisateurs de l’entreprise.
Votre équipe de marketing sera peut-être la première à ressentir les symptômes des attaques de Scraping, notamment une baisse du classement dans les moteurs de recherche et une diminution des taux de conversion.
Les données extraites peuvent être vendues, utilisées pour des sites de comparaison de prix, ou même utilisées pour créer des sites d’imitation à des fins frauduleuses.
Même si le Web Scraper est un partenaire, les entreprises peuvent préférer que celui-ci récupère des données à partir d’une API spécifique, plutôt que de consommer des ressources coûteuses en demandant des données directement aux serveurs Web.