웹 스크래핑(또는 가격 스크래핑, 하베스팅, 마이닝, 미러링, 스크레이퍼 봇이라고도 함)은 다른 곳에서 데이터를 재사용하기 위해 대상 애플리케이션에서 많은 양의 데이터를 수집하는 자동화된 도구를 사용하는 것을 말합니다.
스크래핑은 요청의 소스, 목적 및 빈도에 따라 양성에서 악성까지 다양할 수 있습니다. 예를 들어 사이트의 robot.txt에 정의된 스크래핑 속도를 유지하는 검색 엔진 봇은 허용 가능한 것으로 볼 수 있는 반면, 경쟁사의 일일 가격 스크래핑은 원하지 않을 수 있습니다.
스크레이퍼가 항공사의 인프라 비용을 증가시키고 수익 관리 능력에 영향을 주자 보안 팀은 F5를 찾았습니다.
공격자는 자동화 도구, 기성 스크립트 또는 심지어 서비스형 스크래핑 제공업체를 사용하여 가격, 프로모션, 기사 및 메타데이터를 포함한 웹사이트 콘텐츠를 쉽게 검색하고 스크래핑하는 스크립트를 작성할 수 있습니다.
가트너 리서치의 수석 부사장 애널리스트가 공격자가 사용자를 모방하기 위해 활용하는 기술을 설명합니다.
스크래핑 캠페인은 공격자의 기술과 표적에 따라 노골적인 방식부터 은밀한 방식까지 다양할 수 있습니다. 스크래핑 스크립트의 실행은 기업의 전체 사용자 집단의 트래픽 패턴과 혼합하기 위해 수백 대 또는 수천 대의 서버에 분산될 수 있습니다.
마케팅 팀은 검색 순위 하락 및 낮은 전환율을 포함한 스크래핑 공격의 증상을 가장 먼저 경험할 수 있습니다.
추출된 데이터는 판매하거나, 가격 비교 사이트에서 사용하거나, 심지어 사기 목적으로 모방 사이트를 만드는 데 사용할 수도 있습니다.
스크레이퍼가 파트너인 경우에도 기업은 웹 서버로부터 직접 데이터를 요청하여 높은 비용의 리소스를 소비하기보다는 상대방이 특정 API로부터 데이터를 가져오는 것을 선호할 수 있습니다.