ブログ

自らの爆弾によって煽られた: ビッグダーティデータ

ロリ・マクヴィッティ サムネイル
ロリ・マクヴィッティ
2017年8月21日公開

ビッグデータ。 ビジネスバリューチェーン全体にわたって、モノに組み込まれた数百万のセンサーとモニターから 1 時間あたりに生成されるペタバイト。 製造から配送、POSから消費者に至るまで、これまでにない量のデータが生成されています。

そのデータ自体には意味がありません。 データ自体は、特定の形式での 1 と 0 の集合であり、アプリによって解釈されると情報になります。 情報は分析されて初めて有用となり、行動されて初めて価値あるものとなります。

人々は、今日生成されるデータを効果的に分析することはできません。ましてや、今後 1 時間、1 日、1 週間で生成されるデータを分析することはできません。 しかし、ビジネス上の意思決定は、ほぼリアルタイムで行う必要がますます高まっています。 これを実現するには、毎日収集される膨大なノイズの中から信号を認識するように訓練されたコンピューティングとシステムが必要です。

これは単なる推測ではありません。 で "機械学習: 競争優位性のための新たな実証の場MIT Technology Review Custom と Google Cloud が実施した調査によると、回答者の 60% 以上が「すでに ML [機械学習] 戦略を実装しており、約 3 分の 1 が取り組みが成熟段階にあると考えている」ことがわかりました。 彼らがこの新興技術に多額の投資をする理由は、競争上の優位性です。 「回答者によると、ML の主なメリットは競争上の優位性を獲得できることであり、現在 ML を実装している企業の 26% がすでにその目標を達成したと感じています。」

その利益は驚異的なものになると予想されます。

典型的なフォーチュン 1000 企業の場合、データ アクセス性が 10% 向上するだけで、純利益が 6,500 万ドル以上増加します。

ビッグデータの力を最大限に活用する小売業者は、営業利益を最大 60% 増加できる可能性があります。

これまでのところすべて順調です。 当社はデータを活用して、ビジネスが主導権を握り、成長するための意思決定を推進しています。

危険なのは、いかなる依存にもリスクが伴うことを認識しないことです。 私が食料品店に行くのに車に頼っている場合(私が住んでいる場所には公共交通機関がないため)、その車に何かが起こるリスクがあります。 リスクは大きい。 私のビジネスが意思決定にビッグデータに依存している場合(専門家の予測を額面通りに受け止めるなら、私の場合もそうなる可能性あり)、そのデータに何かが起こるリスクがあります。

ここで私が言っているのは、明らかなデータの損失やデータの破損についてではありません。 私が話しているのは、そのデータの信憑性に対する私たちの信頼から生じる、より陰険な脅威についてです。

個人生活であれビジネス生活であれ、データに基づいて意思決定を行うには、まずそのデータの正確性を信頼する必要があります。

ビッグダーティデータ

汚れたデータは何も新しいものではありません。 インターネット上の記事やリソースにアクセスするために個人情報を要求されたとき、私は時々個人情報をごまかしたことがあることを認めます。 しかし、新しいデータ ストリームは必ずしもこの種の無害な破損のリスクにさらされているわけではありません。 彼らは、あなたのビジネスを軌道から外そうとする悪意ある人物による意図的な腐敗の脅威にさらされています。

私たちはデータに基づいて意思決定を行い、明らかな異常値が現れたときにのみデータに疑問を抱く傾向があるため、徐々に腐敗が進むという脅威にほとんど気づいていません。 銀行取引から小銭を抜き取るという、今では決まり文句となっている比喩のように、データの微妙な変化は気付かれない可能性がある。 ある市場で製品 X の需要が徐々に増加することは、マーケティングまたはプロモーション活動の成功とみなされる可能性があります。 マクロ経済学は、他者における製品 Y の需要の急激な減少を説明できることが多いです。 製造や流通の意思決定の根拠となるデータを改ざんする忍耐力と決意があれば、私が貴社のビジネスに及ぼす影響は大きくなります。

どれほど重要ですか? Ovum Research によると、データ品質が低いと収益が約 30% 失われることになります。 Analytics Week は、不良データによる同様の結果を伴うビッグデータの興味深い事実のリストをまとめました。その中には、次のようなものがあります。

データが不十分だと、企業は営業収益の 20%~35% を失う可能性があります。

不正なデータやデータ品質の低さにより、米国企業は年間 6,000 億ドルの損失を被っています。

ありそうにないですね? 企業スパイ活動の一環として情報収集を目的とした Web スクレイピングは実際に行われており、それを阻止することに専念するチームも存在します。 API を使用すると、これらの作業がさらに簡単になったり、場合によってはリアルタイムでさらに悪化したりします。 したがって、誰かが意図的に不正なデータをストリームに持ち込む可能性は起こらないと考えることは、不正な行為者がしばしば(通常は)私たちより 2 歩先を進んでいるという現実を故意に無視することに等しいのです。

レッドロック-CSI-データ

私たちのセキュリティ対策、特に大量のビッグデータが存在すると予想されるクラウドでは、この脅威が増大します。 Information Builders がスポンサーとなっている TDWI のホワイト ペーパーには、ダーティ データのコストに関する例がさらに多く記載されています。 ほとんどは、買収によるデータ統合から生じる典型的なダーティ データの問題や、典型的な顧客生成の不正な情報に関連していますが、コスト モデルは、破損している可能性のあるデータを信頼することによるビジネスへの脅威、およびその対策を理解する上で非常に役立ちます。

デフォルト設定への依存は、今年だけでも複数の侵害の原因となっています。 1 月の MongoDB の惨事を覚えていますか? デフォルト設定により、データベースがインターネット上の興味のある人全員に公開されてしまうものはありますか? あるいは、Kubernetes の管理コンソールの 285 インスタンスが完全にオープンになっていることが判明したRedLock CSI の調査はどうでしょうか。 資格情報は必要ありません。 同じレポートでは、クラウド内の暗号化されていないデータベースの 31% がインターネットからの着信接続を受け入れていることが判明しました。 直接。 つまり、私とあなたのデータの間には何も存在しないのです。

27,000 以上のデータベースが、セキュリティ保護のための努力がまったく行われなかったために無防備なままインターネット経由でアクセス可能になっている場合、データ ストリームが簡単に汚染される可能性があることは容易に想像できます。 組織がクラウド ストレージ サービスのデフォルトのセキュリティ制御を意図的に削除し、発見や破損に対して無防備な状態にした場合、悪意のある人物がダーティ データを挿入するという考えは、可能性から可能性へと高まります。 データに依存する組織(今日ではほぼすべての組織に当てはまります)は、データを保護する方法だけでなく、その正確性を検証する方法にも注意を払う必要があります。

データ駆動型ビジネスの将来におけるセキュリティとは、単にデータの流出を防ぐだけではなく、侵入という非常に現実的な脅威と、それに対抗する方法も考慮する必要があります。