バイアスが存在することに疑いの余地はありません。確実に存在します。問題は、どのようにしてバイアスが生じるのか、そしてなぜIT部門がそれに注意しなければならないのかということです。
AIを刺激的に宣伝する声は、今、かつてないほど高まっています。関心は高く、圧倒的な需要があり、誰もが自分たちの市場に適した「キラー アプリ」を見つけようと躍起になっています。
しかしこうした誇大広告の下で、懸念の声も上がっており、それには正当な理由があります。AIにはバイアスが生じやすく、そのバイアスがいくつかの分野で警鐘を鳴らしています。
どのようにしてAIにバイアスが生じるかを理解するには、AIモデルの学習方法の基本を理解する必要があります。
いくつの学習方法があるかは、尋ねる相手と、どの程度厳密かによって、答えが変わってくるでしょう。実際、今日使われている方法、アルゴリズム、モデルは多岐にわたり、多くの場合、この分野に精通していなければ理解できません。しかし、モデルがどのように学習するかをざっくりとでも理解する必要があります。なぜなら、最終的にはそれによってバイアスがどのように生じるかが変わるからです。そのことを念頭に置いて、AIモデルに学習させる基本的な方法を3つご紹介します。
さて、ここからが本題です。バイアスはどのようにしてこうしたシステムに入り込むのでしょうか。
もうお分かりだと思いますが、その答えは、学習プロセスには通常、人間が関与しているという事実に基づいています。
教師あり学習にバイアスをかける最も簡単な方法は、データに誤ったラベルを付ける、いわばデータを汚染することです。例えば、動物を分類している場合、「犬」に誤って「猫」のラベルを付けると、十分に高いレベルで誤認が生じる可能性があります。ラベル付けのリスクは、出力を破損させる目的で意図的に間違ったラベルを付けることです。ヒョウが猫かどうか、猫の像を猫と見なすかどうかなど、人間の判断による誤認もあります。強化学習では、ゲームで「間違った」答えや動きに正の報酬を与えることで、システムが意図的に間違った答えを出したり、常に負けたりする可能性があります。
それを望む人がいるかもしれません。
これは明らかに、ChatGPTのような会話型(生成型AI)にも影響を与えます。ChatGPTは、そのサイトによると、「教師あり学習と強化学習」で微調整を行い、「人間のトレーナーがモデルのパフォーマンスを向上させた」とあります。人間が回答のランクを「上げる」または「下げる」ことでランク付けすると、そのデータを使用してモデルをさらに微調整することができます。読者の皆さんは人間だと思いますから、システムのバイアスをさらに高める可能性があるのです。現実には、ChatGPTの回答がまったく間違っていることもよくあります。システムが正しい答えをより多く出せるようにするには、システムにさらに学習させるためのフィードバックが必要です。
この点はとても興味深く、こうしたシステムをどのように操作し、どのような結果が得られるかについて話すのも面白いと思います。しかし私がこのトピックをお話ししたいと思った本当の理由は、バイアスの問題がテレメトリ、つまり運用データにまで及ぶからであり、デジタル サービスを提供して保護するシステムとサービスの自動化を進めるために誰もが使いたいと考えているのが、その運用データだからです。
ご記憶にあるかもしれませんが、私は以前、テレメトリに関連するデータ バイアスについてのトピックと、98%の組織が見逃しているインサイトについて書いたことがあります。
テレメトリ分析に関しては、ほとんどの場合、モデルの学習にはラベル付けされたデータが使用されます。そのシステムにバイアスが生じる原因として、(a)データのラベルが間違っていること、(b)特定のカテゴリのデータに多様性が不足していること、または(c)新しいデータを導入する方法に起因するものが考えられます。データのラベルが間違っていることが問題となる理由は明らかで、十分な量があれば、誤認につながる可能性があるからです。データの多様性が問題となるのは、学習セットが狭いと、そこから外れたデータが必然的に誤分類されるからです。
その典型的な例が、戦車と他の種類の輸送車両を認識するように学習したAIモデルです。戦車はすべて昼間に撮影されましたが、他の車両は昼間ではありませんでした。その結果、AIは戦車と戦車以外の車両を見分けることができましたが、実際には昼と夜を関連付けていました。入力セットに多様性がなかったために、偏った相関関係が生じてしまったのです。
たとえ運用を行うAIが強化学習を利用していても、データの多様性に欠けていれば、システムには「次の一手」を判断するために必要な「変数」が揃っていないことになり、問題となります。
AIが多様なデータ セットや必要な変数の一部を持っていない可能性がある原因は、ご想像のとおり、データ バイアスにあります。特に、「一部の」テレメトリのみを取り込んで分析する選択的モニタリングによって生じたデータ バイアスが原因です。例えば、DNSのパフォーマンスがユーザー エクスペリエンスに与える影響はよく知られています。しかし、DNSからのテレメトリなしでアプリケーションのパフォーマンスを分析するモデルを学習させた場合、そのモデルは、DNSに問題があってもパフォーマンスは良好だと答えるでしょう。そのモデルはDNSがアプリケーションのエンドツーエンドのパフォーマンスに何らかの形で関係していることを知らないからです。もし「次の一手」がパフォーマンスの低下を誰かに警告することであれば、データ選択のバイアスが原因でシステムは失敗することになります。
当社の年次調査で、半数以上の組織が、必要なインサイトを明らかにするうえでの最重要課題として「データの欠落」を挙げているのも当然のことです。
このように、組織がAIを活用して運用上の意思決定を行うことに全力を注いでいたとしても、課題は残ります。システムに学習させる多様なデータ セットがなければ、バイアスが入り込む可能性があるのです。
バイアスが生じる3つ目の原因は、データをモデルに導入する際の方法にあります。最も一般的な運用例は、合成テストの結果を使用してアプリケーションの平均的なパフォーマンスを決定し、得られたモデルを使用して実際のトラフィックを分析することです。合成テストのデータセットに含める地域、デバイス、ネットワークの混雑状況などの幅広さによって、実際のユーザーが完全に許容できるパフォーマンスであっても不足と識別される場合もあれば、その逆の場合もあります。
そのリスクとは、戦力を強化し、組織がデジタル ビジネスを行うために必要な規模や効率を実現するためのテクノロジへの信頼が損なわれることです。AIが「間違った」答えを出したり、「間違った」解決策を提案したりすることが続けば、誰もAIを信用しなくなるからです。
このため、フルスタックの可観測性は単に重要であるだけでなく、組織がデジタル トランスフォーメーションの第3段階、つまりAIを活用したビジネスに進むために必要な6つの重要な技術的能力の1つとなっています。
データの欠落は、それが選択的モニタリングによるものであれ、メトリクスの独断的なキュレーションによるものであれ、運用上の意思決定を進めるためのAIモデルにバイアスを生じる可能性があります。
データのソースと種類に細心の注意を払い、包括的なデータと可観測性を確保するための戦略と組み合わせることが、バイアスを排除し、より正確で信頼できる結果を生み出す上で大きな役割を果たすでしょう。