ソリューション
スクレイピングとは、Webサイトのコンテンツの中から特定の情報だけを抽出・取集する技術・行為です。「ウェブスクレイピング」とも呼ばれています。
抽出・収集する役割を担うのは、主にコンピュータ、「bot(ボット)」と呼ばれるものです。スクレイピングでは、そのbotが、Webサイトとまるで人間のユーザーであるかのように対話しながら行うのが特徴です。Webサイトから入手した情報は、加工され、新しい情報として生成されることで、何らかの目的で利用されます。
スクレイピングと似た言葉にクローリングがあります。スクレイピングが「何か特定の重要な情報を取ってくるのを目的」とするのに対して、クローリングは「サイトを巡回して情報収集するのが目的」としており、活用の目的に違いがあります。
ある航空会社では、Webサイトの検索トラフィックの25%がボットや自動検索によるもので、独自のフライト情報の窃取と顧客アカウントの乗っ取りが行われていました。
既存のセキュリティソリューションでは、人間の訪問者を装った自動化された攻撃者に対しては効果がなく、Distributed Cloud Bot Defenseを導入したことで、Webスクレイピングを阻止することに成功した事例をご紹介します。
25%
不要なスクレイピングが、あるURLの全検索トラフィックの25%を占めていました。
攻撃者は、自動化されたツールや既製のスクリプト、あるいはScraping-as-a-Serviceのプロバイダを利用して、価格、キャンペーン、記事、メタデータなどのWebサイトのコンテンツを発見し、スクレイピングするスクリプトを簡単に作成することができます。
攻撃者がユーザーを装うために利用するテクニックをShape Intelligenceの副社長が紹介します。
スクレイピング キャンペーンは、攻撃者のスキルセットや目的に応じて、大胆なものから密かなものまでさまざまです。スクレイピング スクリプトの実行は、企業の全ユーザーのトラフィック パターンに紛れ込ませるために、数百から数千のサーバーに分散して行われることがあります。
検索順位の低下やコンバージョン率の低下など、スクレイピング攻撃の症状を最初に経験するのは、マーケティング チームかもしれません。
抽出されたデータは、販売されたり、価格比較サイトに利用されたり、さらには詐欺目的の模造サイトの作成に利用されることもあります。
スクレーパーがパートナーであっても、企業は、Webサーバーに直接データを要求してコストの高いリソースを消費するよりも、指定されたAPIからデータを取得することを望むかもしれません。
Webサイトにある画像などのデータの中には、個人が映っている画像や、誰かがオリジナルで作成した作品コンテンツなども存在します。それらのデータを第三者がスクレイピングし、無断で他のWebサイトにアップロードするといった行為を行った場合、肖像権や著作権を侵害されたり、個人情報を無断利用されたりするリスクがあります。
競合他社のWebサイトのモニタリングすることは、多くの企業が実施していますが、ウェブスクレイピングが行き過ぎると、業務妨害につながるケースもあります。例えば、競合他社のWebサイトへ頻繁にウェブスクレイピングをかけると、システムのパフォーマンスが落ちてしまい、正常な閲覧や取引を妨害してしまうこともあります。故意ではないこともありますが、悪意を持ってシステムパフォーマンスを落とし、システム運用費を値上げさせるケースもあります。
ウェブスクレイピングで収集されたデータは、サイバー攻撃の一種である「フィッシング詐欺」に悪用されることもあります。例えば、サイバー攻撃者が自社サイトのコンテンツをウェブスクレイピングで盗み、フィッシングのための偽サイトを作成して、本物であるかのように見せかけてユーザーをだまし、クレジットカード情報などの個人情報を入力させるといった方法です。
自動化され、送り込まれたボットから自社のWebサイトやWebアプリケーションを保護し、ボットの管理をするシステムを導入する方法です。
具体的には、インターネット上に走っているボットを検出し、さまざまな脅威から防御するためのシステムです。ボット管理システムの中には、スクレイピングを拒否する機能を備えるものもあります。ウェブスクレイピングを行う者が、ボットを用いて自社のWebサイトからデータを収集できないようにします。
レートリミットとデータリミットといった、ウェブスクレイピングを制限する仕組みを導入する方法もあります。
レートリミットは、一定の時間内に操作できる回数を制限するものです。例えば、人間のユーザーは、数秒から数分の間に数百ページものコンテンツをリクエストすることは現実的にむずかしいため、あまりに素早いリクエストはボットによるウェブスクレイピングを疑い、リクエストを制限します。
データリミットは、Webサイトから取得できるデータ量を制限するものです。ユーザーが、通常利用するのに必要な量を超えるデータを取得できないようにすることで、ウェブスクレイピングによる大量のデータ収集を制限できます。
スクレイピングへの対策にボット管理システムの導入が有効であることを解説しましたが、F5がご提供するDistributed Cloud Bot Defenseではスクレイピングによるコンテンツの流出やフィッシング詐欺への対策を実現します。
様々なトラフィック管理ソリューションとの連携が可能で、既存環境に依存しない導入が可能です。F5は、これまで多くのお客様をサポートしてきた経験から自動化されたボットトラフィックの分析や傾向についてのノウハウを有しており、運用およびメンテナンスを徹底的にサポートいたします。
ぜひ以下より製品の概要をご確認ください。