スクレイピングとは、Webサイトのコンテンツの中から特定の情報だけを抽出・取集する技術・行為です。「ウェブスクレイピング」とも呼ばれています。
英単語で表すと「scraping」であり、「scrape」には「こする」「削りとる」「剥離する」といった意味があります。つまり、Webサイトにおけるスクレイピングは、情報を削りとるというという意味合いがあります。
スクレイピングで抽出・収集するコンテンツは、Webサイト上に表示されているものだけでなく、非表示のものも含まれます。つまりWebサイトに格納されているデータすべて、例えばテキスト、画像、動画、HTMLコード、CSSコードなどが抽出・収集の対象です。
抽出・収集する役割を担うのは、主にコンピュータ、「bot(ボット)」と呼ばれるものです。スクレイピングでは、そのbotが、Webサイトとまるで人間のユーザーであるかのように対話しながら行うのが特徴です。
Webサイトから入手した情報は、加工され、新しい情報として生成されることで、何らかの目的で利用されます。
●スクレイピングとクローリングの違い
スクレイピングと似た意味合いの言葉に「クローリング」があります。英単語では「crawling」となり、「crawl」とは「はう」「腹ばっていく」という意味合いがあります。Webサイトに対して使用する際には「巡回する」と訳されることが多いです。スクレイピングが何か特定の重要な情報を取ってくるのを目的としているのに対して、クローリングは、Webサイトを作っている言語であるHTMLソースを隅から隅まで巡回して情報収集するのが目的です。つまり「巡回」に重きが置かれています。
Googleの検索エンジンが、検索結果を作成するために走らせているクローラーは、クローリングの代表例です。
ウェブスクレイピングで収集される情報と活用シーンには、例えば、次のものがあります。
●会員情報における連絡先の収集
ECサイトや会員制サイトなどにはデータベースに会員情報が格納されていますが、そのうち、電話番号やメールアドレスなどの連絡先情報を収集します。それらの連絡先情報を営業リストなどに利用します。
●検索順位の確認
例えば、Googleなどの検索エンジン上で、自社サイトの特定のページが検索順位の何番目に表示されているのかを確認します。また、競合他社のページの検索順位を自動で収集することで、比較しながらSEO対策を実施するといったことも行われています。
●ECサイトの商品や価格、商品レビューの収集
ECサイトの情報の中でも、商品名と価格、商品レビュー情報のみを抽出して収集することも行われています。競合他社のECサイトの調査などに利用されています。
●宿泊サイトの空室情報、ネットオークションの価格変動、株価などの収集
その他、宿泊サイトの空室情報やネットオークションの価格変動、株価変動など、常に変動する情報で、人々が知りたいニーズのある情報収集が行われています。それらを加工し、新たな情報として公開するといったことが行われています。
ウェブスクレイピングはさまざまなシーンで使われていますが、中には悪意を持つサイバー攻撃として行われることもあります。Webサイトを運営する立場としては、個人情報の悪用やセキュリティ侵害のリスクがあること知っておかなければなりません。
ウェブスクレイピングを起因とする脅威には、例えば、次のものがあります。
●画像などのデータ無断アップロードによる著作権侵害
Webサイトにある画像などのデータの中には、個人が映っている画像や、誰かがオリジナルで作成した作品コンテンツなども存在します。それらのデータを第三者がスクレイピングし、無断で他のWebサイトにアップロードするといった行為を行った場合、肖像権や著作権を侵害されたり、個人情報を無断利用されたりするリスクがあります。
●競合他社の行き過ぎたモニタリング・業務妨害
競合他社のWebサイトのモニタリングすることは、多くの企業が実施していますが、ウェブスクレイピングが行き過ぎると、業務妨害につながるケースもあります。例えば、競合他社のWebサイトへ頻繁にウェブスクレイピングをかけると、システムのパフォーマンスが落ちてしまい、正常な閲覧や取引を妨害してしまうこともあります。故意ではないこともありますが、悪意を持ってシステムパフォーマンスを落とし、システム運用費を値上げさせるケースもあります。
●フィッシング詐欺
ウェブスクレイピングで収集されたデータは、サイバー攻撃の一種である「フィッシング詐欺」に悪用されることもあります。例えば、サイバー攻撃者が自社サイトのコンテンツをウェブスクレイピングで盗み、フィッシングのための偽サイトを作成して、本物であるかのように見せかけてユーザーをだまし、クレジットカード情報などの個人情報を入力させるといった方法です。
Webサイト運営側は、上記のようなウェブスクレイピングの脅威に事前に対策を施しておくことが重要です。ここでは、ウェブスクレイピングの脅威への主な対策方法をご紹介します。
●ボット管理システムの導入
自動化され、送り込まれたボットから自社のWebサイトやWebアプリケーションを保護し、ボットの管理をするシステムを導入する方法です。
具体的には、インターネット上に走っているボットを検出し、さまざまな脅威から防御するためのシステムです。ボット管理システムの中には、スクレイピングを拒否する機能を備えるものもあります。ウェブスクレイピングを行う者が、ボットを用いて自社のWebサイトからデータを収集できないようにします。
●レートリミットとデータリミットの導入
レートリミットとデータリミットといった、ウェブスクレイピングを制限する仕組みを導入する方法もあります。
レートリミットは、一定の時間内に操作できる回数を制限するものです。例えば、人間のユーザーは、数秒から数分の間に数百ページものコンテンツをリクエストすることは現実的にむずかしいため、あまりに素早いリクエストはボットによるウェブスクレイピングを疑い、リクエストを制限します。
データリミットは、Webサイトから取得できるデータ量を制限するものです。ユーザーが、通常利用するのに必要な量を超えるデータを取得できないようにすることで、ウェブスクレイピングによる大量のデータ収集を制限できます。