BLOG | OFFICE OF THE CTO

オペレーショナル・データとジェネレーティブAIの交差点で

James Hendergart サムネール
James Hendergart
Published October 22, 2024

ジェネレーティブAI(GenAI)の話題があちこちから聞こえてくる。問題は、何が流行っているのか?どのように世界をより良い場所にしているのか?ビジネス上の価値はどこにあるのか?これらの疑問は、GenAIを業務(AIOps)に導入するかどうか、そしていつ導入するかを考えている組織が直面している課題を考えるときにも、同様に関連します。私は過去1年間のジェネレーティブAIの実験と、F5での日々のリサーチで業界のトレンドに広く触れたことに基づき、GenAIが運用データプラクティスに与える影響を理解しようとしている組織の指針となる、以下の5つのポイントを提供します。その結果、これらの組織は、既存の予算、慣行、文化にGenAIテクノロジーの採用スケジュールを合わせることができるようになります。

1. GenAIモデルは半構造化データと非構造化データを愛します

運用データは、半構造化データ(オブジェクト)と非構造化データの寄せ集めである。大規模言語モデル(LLM)は、このようなさまざまなデータ形式に対して非常に柔軟で効果的です。このため、LLMは運用データセットの分析に採用するのに最適な技術となっています。組織は社内で様々な実験や評価を行い、様々なGenAI対応ソリューションの有効性、使いやすさ、コストを検証することができます。LLM推論を使用して興味深いデータパターンを検出することで、誤検出が少なくなり、マシンのスピードとスケールが業務データフローを消費するチームの目標と一致します。

2. 組織はモデルを構築する必要はありません

目の前の特定のタスクに対して、どの技術がどのモデルで使われているかを知ることに重点を置く組織は、独自のモデルを構築する必要がない。例えば、名前付きエンティティ認識(NER)は自然言語処理(NLP)の一分野であり、半構造化データ内の重要な要素を確立するための効果的なテクニックであることが証明されています。NERの例としては、曜日のようなカテゴリーや、1以上5未満の整数のような記述からなるリストを挙げることができます。その結果、GenAIに対応していないルールベースのパターンマッチング技術よりも推論時の精度が高くなります。NERのようなテクニックの研究と実践が進歩し続けるにつれて、オペレーションチームはモデルを構築することよりも、成功が証明されたテクニックを活用することに注意を向けることができます。

NER example:
Named Entity: Days of the week
List: Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday
図1. 名前付きエンティティ認識は、ルールベースのパターンマッチングよりも推論時の精度が高い。

3. データの重力は実在します

データの重力は、データが作成される場所の近くに計算能力を配置するか、すでに計算能力が配置されている場所の近くにデータを移動させるかの決定に影響を与える根本的な力であります。データ量が多ければ多いほど、重力は強くなり、その結果、データの近くに配置されるコンピュート容量は増加します。トレーニング(モデルの作成とチューニング)では、データは集約され、コンピュートの近くに移動されます。推論(モデルの使用)のために、モデルはプロンプトが発行される場所の近くに移動されます。

サードパーティがホストしているインスタンスのAPIを呼び出すのとは異なり、社内にコピーを持ち込んでモデルにアクセスする場合、モデルをプロンプトに近づけること、および/またはプロンプトの一部としてベクトル化された追加のプライベートデータセットを移動することは理にかなっています。一方、モデルがインターネット上でAPIを公開しているサードパーティ( )によってホストされている場合、モデルと推論操作はまったく移動しません。このような場合、推論とプライベートデータベクターは、データセンターのコロケーション相互接続を使用するか、可能であればモデルプロバイダーとホスティングロケーションのマッチングを試みることにより、「ネットワークに近い」ロケーションに移動することができます。

データとコンピューティングを引き合わせる力と引き離す力を意識することは、コストとパフォーマンスの適切なバランスを追求する上で、十分な情報に基づいた選択につながります。

図2. データ重力の要因としてのネットワークの近さ
図2. データ重力の要因としてのネットワークの近さ

4. データサイロを無視せず、対処します

GenAIの処理により、データのサイロ化を解消し、業務データ分析を簡素化し、スピードアップすることがこれまで以上に重要になっています。しかし、当分の間は、データのサイロは増殖しないまでも残るようです。

問題は、データのサイロ化にどう対処するか、どのようなテクノロジーを選択するかということです。複数の場所に保存されたデータへのアクセスに関しては、データをコピーして移動するか、データを移動せずに連携クエリを使用する論理データレイヤーを実装するかという選択肢があります。どちらの選択をするにせよ、存在するストリーミング・データ・ソースを認識し、時間/データ鮮度制約に関する運用ユースケースを評価することは、ストリーミング・エンジン、クエリ・エンジン、データ・フォーマット、カタログなど、データ・テクノロジー・スタックの必要な要素を選択するのに役立つ。テクノロジーの選択により、データチームはパフォーマンスとコストのバランスを取りながら、最も効果的で使いやすいテクノロジーを選択できるようになります。理想的には、組織のデータプラクティスは時間とともに成熟していくが、その成熟の段階において組織に最適なものを選択できる柔軟性が常に与えられています。

5. オートメーションは友達-恐れることはない

ソリューションが自動化を追加すると、データ・プライバシーとSecOpsの専門家の暗黙の知識を、機械が実行できる反復可能なAIOps対応プラクティスに変えることでスケールする。そうして初めて、データ、セキュリティ、プライバシーの各チームはインテリジェンスを追加することができるようになります。インテリジェンスは、特定のデータを誰が、どのくらいの期間、どのような目的で使用できるかをより詳細に定義することで、ポリシーの有効性を高めます。これにより、戦略的計画、新技術の評価、データアクセスポリシーを改善し例外を承認するためのビジネスとのコミュニケーションに時間を割くことができます。

スピード、スケール、自動化は、成熟したAIOpsの特徴であり、より良いアウトプット、より迅速な意思決定、人的資本の最適化につながる。GenAIは、これまでテクノロジーが開けなかった扉を開けようとしています。上記の5つの学習は、IT運用、セキュリティ運用、プライバシー運用の各チームがAIOpsにGenAIを導入する際に考慮すべきいくつかの足跡を示すものである。AIモデル、運用データへのコンピュートの近接性、データ、自動化は、新しいAIOpsプラットフォームの重要な部分を提供します。この豊かな学習環境の中で、組織は現在の、そして後継世代のテクノロジー運用の文化と慣行を構築することができます。

ジェネレーティブAIがデータに与える影響についてさらに深く掘り下げるには、F5の最新レポート「デジタル・エンタープライズ成熟度指数」をお読みください。