生計を立てるために情報を販売する専門家になったと想像してください。人々はあなたに質問するためにお金を払っています。 突然、機械があなたの頭から専門知識を吸い取り、あなたよりも速く質問に答えることを学び、あなたの生計を奪います。 生成 AI の台頭により、コンテンツに依存するビジネスモデルを持つ企業はまさにこのジレンマに直面しています。
Gen AI が私たちをどこへ連れて行くのかは分からないかもしれませんが、明らかにそれは私たちのコンテンツの消費方法を変え、それによってコンテンツの配信に依存する企業に混乱をもたらすでしょう。これは、インターネットがニュースやエンターテイメントの消費を変え、多くの従来の報道機関を壊滅させたのと似ています。
Gen AI による混乱は、メディア、ニュース、ストック写真などのコンテンツを販売する企業だけでなく、有料広告に視聴者を引き付けるためにコンテンツに依存している企業にも影響を与えます。 同様に、製品やサービスの宣伝、ブランド アイデンティティや顧客関係の構築、行動喚起によって顧客を動かすために見込み客を引き付けるビジネスにも、混乱は影響を及ぼします。
検索用のコンテンツのクロールは Web の初期の頃に生まれましたが、ChatGPT のような LLM ベースのアプリは根本的に異なる方法で機能します。 検索エンジンは、元のコンテンツへのリンクを含む要約を提供し、コンテンツを見つけやすくすることで価値を高めます。 逆に、LLM を搭載したチャットベースのアプリは、必ずしも元のコンテンツへのリンクを提供するわけではありません。むしろ、ユーザーをチャット内に留まらせ、さらなるプロンプトを通じてさらに学習させ、コンテンツを作成した企業からすべての価値を奪います。
組織は、クローラーのスコープ宣言を可能にするrobots.txt ファイルだけに頼ることはできません。LLM のトレーニング用コンテンツをクロールするすべての組織が robots.txt ファイルを尊重するわけではないためです。 LLM がコンテンツを単にコピーして複製するのか、それとも他のクリエイターのようにコンテンツを合成するのかについては議論の余地があります。 LLM スクレイピングに対する著作権法の重要性は現在、裁判所で議論されています。 法律や規範がどのように進化していくかは分かりませんが、組織は今から、自社のビジネスに不可欠なコンテンツをどのように保護するかについて考え始める必要があります。
スクレイピングは、簡単ではありませんが軽減できます。 実際、これは決して新しい問題ではありません。 スクレイパーは、運賃、価格、料金のスクレイピングを通じて、航空会社、小売チェーン、ホテルに関する競合データを収集しようとしてきました。 これらの企業は、競合データの損失を避けたいだけでなく、スクレーパー(特に最新のデータを求めるスクレーパー)のトラフィック負荷が、場合によってはサイトへのトラフィック全体の 98% を占め、パフォーマンスに影響を与え、サイトがクラッシュすることもあります。
スクレーパーはボットを使用してデータ収集を自動化します。 残念ながら、CAPTCHA や IP アドレス拒否リストなどのボットを軽減するための従来のメカニズムは、スクレイパー ボットに対しては効果がありません。 スクレイピングは一般的に合法とみなされるため、CAPTCHA を回避するためのオンライン サービスが多数あります。 これらのサービスは、機械学習やクリックファームを使用してCAPTCHA を解読するため、高速かつ安価で、ほとんどの人がこれらの厄介なパズルを解くよりもはるかに効率的です。 CAPTCHA の最も簡単な代替手段である IP 拒否リストも、スクレーパーが利用できるサービスがあるため効果がありません。 これらのサービスにより、スクレイパーは数千万の住宅用 IP アドレスを通じてリクエストを発行できます。この数は非常に多く、増加しているため、拒否リストを維持することは完全に不可能です。
多くの専門的なボット管理ソリューションでも、シグナル収集に計測機器に依存しているため、スクレイピングに苦労しています。 典型的な例はログインです。 ブラウザはまず HTTP GET リクエストを発行して、ログイン フォームを含む Web ページを取得します。 そのページでは、JavaScript がバックグラウンドで実行され、ブラウザとユーザーの入力およびマウスの動きのパターンに関するデータを収集します。 ユーザーが資格情報を送信すると、JavaScript がシグナル データを HTTP POST リクエストに挿入します。リバース プロキシとして機能するボット管理ソリューションがこれをインターセプトして分析し、リクエストを行っているエージェントがボットであるかどうかを判断します。
ただし、多くのコンテンツ サイトでは、ブログ投稿、ニュース項目、価格設定など、コンテンツにアクセスするために GET と POST の組み合わせは必要ありません。 むしろ、単一の HTTP GET リクエストでスクレイパーが求めるものがすべて返されるため、インストルメンテーションの機会が排除されます。
スクレイピング コンテンツへの簡単な API アクセスを提供するサービスがいくつかあるため、多くのボット管理ソリューションがスクレイピングを保護できないことがわかっています。 ゼンロウズたとえば、バイパスできるボット対策ベンダーをリストします。
幸いなことに、 F5 Distributed Cloud Bot Defense は、インタースティシャルと呼ばれる手法によってこの問題を解決します。インタースティシャルとは、すばやく読み込まれ、データをすばやく収集し、要求されたページのコンテンツを読み込むページです。 F5 は、最大手の航空会社や小売業者をスクレイピングから守る数年にわたって、この手法を高速、効率的、効果的なものに改良してきました。 エージェントが人間であると識別されると、リプレイの不正使用を防ぐ場合を除いて、それ以上のチェックは不要であるため、インタースティシャルはユーザー セッションごとに 1 回だけ実行されます。
最も効果的なボット管理ソリューションである Distributed Cloud Bot Defense は、コンテンツ作成者に、LLM モデル構築のためのコンテンツのスクレイピングに対する最善の防御を提供します。 コンテンツとビジネスを保護したい組織にとって、Distributed Cloud Bot Defense は最適なオプションです。