CTO

04月 13日, 2026

8 分程度

エージェント型オブザーバビリティが作業方法と重要な指標にもたらす変化

Patrick Lin

AIに関する華々しい宣伝を見る限り、オブザーバビリティを必要とする課題はすでにAIが「解決済み」のように思われるかもしれません。しかし、そう結論するのは早すぎます。

今日では、プロンプトを入力してコードを生成できます。インシデントを一文で要約することも、自然言語の質問によってテレメトリを調査することもできます。にもかかわらず、多くのチームが今でも、大量のアラートに翻弄され、どのダッシュボードを信頼すべきかを議論し、ビジネスにとって本当に重大な問題はどれかを理解するのに苦労しています。AIの時代にも、オブザーバビリティは不要になっていません。むしろ、その重要性は高まっています。ただし、その役割は根本的に変化しました。

組織でのAI導入が進むなか、オブザーバビリティに関する話題の多くは2つの変化に集中しがちです。それは、監視が必要なAIシステムやAIサービスの誕生、またはAIを活用して運用の負担を軽減するツールの登場のいずれかです。どちらも現実に起きていますが、これがすべてではありません。AIは、私たちが利用するシステム、その運用方法、ビジネスが期待する成果までをも変えつつあるのです。

Splunkが提案するエージェント型オブザーバビリティは、こうした事情を背景に、AIドリブンの運用が実際のシステムの動作やビジネスへの影響に確実に基づいて行われるようにします。

これがSplunkの考える、オブザーバビリティが向かうべき方向であり、AIがもたらす変化に組織が先手を打つ方法です。

AIが促すオブザーバビリティの次の進化

アーキテクチャの変化とともに、オブザーバビリティに求められる役割も変化してきました。初期の頃は、インフラを監視するだけで十分でした。なぜなら、サーバーが停止すれば、アプリケーションがかなりの確率で停止したからです。その後、分散システムが広まり、さらにクラウドネイティブアーキテクチャが登場して、ホストに障害が起きても、アプリケーションへのアクセスがどうなっているかがよくわからなくなりました。オブザーバビリティが登場したのは、こうした、相互接続と複雑化が進む環境の理解を助けるためでした。

そして今日、AIの普及によって私たちは新たな転換点を迎えています。最新のアプリケーションでは、モデル、エージェント、オーケストレーション層への依存度が高まっています。しかし、従来のシグナルでは、これらの動作を完全には捉えきれません。同時に、エンジニアリングチームやITチームでは、インシデントの検出、トリアージ、修復の複雑化する部分を自動化するためにAIを活用することが増えています。システム自体が、決定論的ではなくなりつつあるのです。障害が引き起こすのは、もはや単なる停止ではなく、品質、コスト、意思決定の静かな劣化です。それがビジネスにもたらす影響は、通常、間接的に、または遅れて現れるか、カスタマージャーニー全体に分散するかたちをとることになります。

次の3つの変化が同時に起きています。

AIシステム自体の動作を理解する必要があります。たとえばモデル、プロンプト、応答、GPU、ツールなどです。なぜなら、AIを取り入れたシステムではもはや、可用性のみに頼って動作の正確性、安全性、コスト効率を判断することができないためです。
人間の能力を超えるスピードと規模で作業するAIの助けが必要です。その理由は、最新の環境で生成されるシグナル、やり取り、判断ポイントの数が、手動のワークフローによってリアルタイムで適切に統合できる限界を超えているからです。
システムの健全性だけでなくビジネスへの影響も把握できるオブザーバビリティが必要です。なぜなら、すべての技術的な問題の影響が同じように顧客、収益、リスクに及ぶわけではないからです。

エージェント型オブザーバビリティとは

エージェント型オブザーバビリティは、オブザーバビリティの原則をAI時代に合わせて拡張した概念です。それを構成するのは、AIドリブンの運用支援、AIを活用したアプリケーションやエージェントのより詳細な可視化、そしてテレメトリとビジネス成果のより明確な連携です。

具体的には、AIエージェントと統合データ基盤を活用して、問題の修正と防止、AIシステムの監視とガバナンスを行うことで、ビジネスにとって重要な問題にチームが集中できるように支援します。このアプローチには3つの側面があります。

1. AIエージェントによる問題の修正と予防

今日、多くの組織で実践されているオブザーバビリティは、人手を過度に必要とします。人間がインストルメンテーション(計装)を設定し、アラートを調整し、ダッシュボードの情報やログをくまなく調べて問題を診断します。しかもその際にコンテキストが不足していることもしばしばです。従来の環境でも困難な作業であるのに、ソフトウェアの基盤となるモデルが学習、ドリフト、更新し得る環境では、到底規模を拡大できません。

エージェント型オブザーバビリティは、こうした業務のバランスを変える可能性を秘めています。主導権は人間に委ねながら、AIが反復的な作業や時間のかかる作業を担い、場合によってはベテランスタッフですら十分な速さではできない作業を肩代わりします。たとえば以下のような作業です。

適切な態勢の確立：環境の現状に即したインストルメンテーション、ベースライン、SLOを提案します。

問題の早期検出：ドメインを横断してシグナルを相関付け、問題が連鎖してユーザーに影響を及ぼすインシデントに発展する前に異常を特定します。

適切なコンテキストの構築：トレース、ログ、ネットワークパス、デプロイ、ビジネスKPIをつなぎ合わせ、エンジニアが白紙から始めずにすむようにします。

適切な場面での初動対応：たとえば、ロールバック、機能フラグの変更、キャパシティ調整などの処置を提案または実行します。そのプロセスは常に透明で上書き可能です。

エージェント型オブザーバビリティの目標は、エンジニアの仕事を奪うことではありません。そうではなく、手作業の負担を軽減して、人間がシステムの設計、エクスペリエンスの改善、創造性や判断力を必要とする問題の解決に集中できるようにすることです。

2. AIエージェントとAIスタックの監視

重要なエクスペリエンスにAIが組み込まれるようになると、アプリケーションリスクの性質が変化します。たとえば、モデルは、正常に機能していても、少しずつ品質を劣化させることがあります。エージェントは、タスクを遂行しても、その過程で誤った判断をしていることがあります。コストは、トラフィックとほぼ無関係に急騰することがあります。

オブザーバビリティで従来「ゴールデンシグナル」とされた遅延やエラー、スループットなどでは、もはや全体像は捉えきれません

その理由は、インフラとそこで実行されるアプリケーションの両方が進化したことにあります。

AIインフラやAIサービスでは、監視が必要なコンポーネントが新しく導入されます。たとえば、GPU、LLM (大規模言語モデル)、ベクトルデータベース、オーケストレーションレイヤー、エージェントフレームワークです。これらによって、関連するインフラ、特にネットワーク、メモリー、ストレージにこれまでとは異なる負荷がかかることもあります。その監視で重要なのは、パフォーマンスや健全性だけではありません。出力の品質、コストの透明性、AIドリブンの結果を得るまでの効率も把握できるべきです。

また、AIシステムは本質的に非決定論的です。つまり、プロンプトは同じでも時間が経つと異なる結果を生成したり、明らかなエラーはなくても品質を少しずつ低下させたりします。そのため、オブザーバビリティでは、二元的な「正常に動作しているか、障害が起きているか」というシグナルを超え、品質、安全性、コストなど、より主観的な指標へと移行する必要があります。こうした指標が示すのは、モデルやエージェントが適切な結果を適切なコストで実現しているかどうかです。責任あるAI運用のためには、オブザーバビリティは対象の範囲をアプリケーションやインフラから大きく拡大し、AIスタック全体に広げる必要があります。これにはGPU、モデルエンドポイント、ベクトルストア、オーケストレーションレイヤー、作業を調整するエージェントフレームワークも含まれます。また、会話レベルやエージェントレベルのテレメトリを収集する必要もあります。つまり、プロンプトと応答、ツールの呼び出し、コンテキストウィンドウ、ユーザーやセグメントによる動作の違いなどを捉えられなければなりません。

さらに、ドリフト、ハルシネーションの発生リスク、ポリシー違反、データ漏えい、プロンプトインジェクションの試行など、品質と安全性に関するシグナルを監視するとともに、トークン消費量、モデルのパフォーマンス、AIによるやり取りのROIなど、コストと効率のメトリクスを追跡する必要もあります。

こうした監視は必須です。AIがもし顧客とのやり取りを主導したり、意思決定に影響を与えたり、自律的に動作したりしているのであれば、その監視はアプリケーション層やインフラ層と同じ厳密さで行われる必要があります。その際の重点は、特に長期にわたる品質、信頼性、コストに置くことになります。

3. シグナルとビジネスへの影響との関連付け

多くの環境は複合的で、クラウドネイティブサービス、レガシーアプリケーション、SaaSコンポーネント、サードパーティAPI、管理下にないネットワークなどの組み合わせから成ります。そこで起きるのは、アラートがコンテキストなしで発せられ、ダッシュボードが症状は示しても影響は示さず、その結果、チームが顧客にとって本質的ではない問題を追跡して時間を浪費してしまうという状況です。

最も成熟した組織は、運用に関する意思決定の基盤をシステムの健全性だけでなく、ビジネス成果にも置いています。しかし、そうなるまでの道のりは困難をきわめます

エージェント型オブザーバビリティはその逆の質問から出発し、こう考えます。「何かが変化した。これはビジネスにとって何を意味するだろうか？」この質問に答えるには、以下が必要です。

ジャーニーをエンドツーエンドで可視化する：決済、請求、ローン承認、注文履行などを主要なオブジェクトとしてモデル化します。

ユーザーとセグメントを把握する：影響を受ける顧客、チャネル、地域と、影響の深刻度を把握します。

ドメインを横断してコンテキストを取得する：インフラ、サービス、ネットワークが、組織の管理下にあるかどうかを問わず、どのように連携してエクスペリエンスを構成しているかを理解します。

コストと価値を意識する：作業の優先順位付けの基準を、組織が実際に評価される成果に据えます。

ここで重要なのが、統合的なデータファブリックです。そこに集約されるのは、アプリケーションテレメトリ、ネットワークインサイト、セキュリティシグナル、ビジネスコンテキストです。AIエージェントが推測を高速化するだけでなく、真のインサイトを提供するには、この基盤が必要です。

エージェント型オブザーバビリティが今重要な理由

Splunkのオブザーバビリティ調査レポートによると、高いROIを達成している組織には、共通する特徴が3つあります。それは、予防の重視、問題解決の速さ、そして、問題対応よりもイノベーションの推進にかける時間の圧倒的な多さです。こうした組織は、オブザーバビリティを単なるツールセットではなく、戦略上の能力として捉えています。

エージェント型オブザーバビリティをこうした基礎的な実践の上に築くことで、チームは新たな変化の波に備えることができます。来る世界では、AIが開発するソフトウェアや、自律的に動作するシステムが増えるでしょう。さらに、日々の業務を収益への効果、リスクの影響度、カスタマーエクスペリエンスに直接結び付ける必要性も高まるでしょう。

これは、オブザーバビリティの進化における次の段階です。すなわち、リアクティブな監視とシステムの理解を超えて、AIを活用したビジネスを自信を持って運営し統治していくフェーズです。

その方向に進むために大規模な変革は必要ありません。入り口となる実践的な取り組みをいくつかご紹介します。

重要なユーザージャーニーを1つ選んでモデル化し、そこに既存のテレメトリを関連付けます。

AIアシスタンスを現行の調査ワークフローに取り入れます。

AIを搭載したアプリケーションをエンドツーエンドでインストルメントし、複製可能なパターンとして扱います。

ビジネスとエンジニアリングの間で、どの結果が特に重要かについて、次のインシデントが発生する前に合意します。

そこから段階的にカバー範囲を拡大し、エージェントを追加して、より多くのドメインを統合できます。

AIによってオブザーバビリティが不要になってはいません。むしろ、オブザーバビリティへの期待は高まっています。エージェント型オブザーバビリティは、その期待に応え、AIを活用した運用の効率化と、責任あるAIシステムの監視を実現するとともに、実際のビジネスへの影響に根差した意思決定を可能にします。

このブログはこちらの英語ブログの翻訳、前園曙宏によるレビューです。

Patrick Lin

Patrick Lin is currently the SVP, GM of Observability at Splunk. He joined Splunk through the acquisition of SignalFx in 2019, where he was the Chief Product Officer. Prior to SignalFx, Patrick held a variety of PM leadership roles, including VP Product Management at VMware, the pioneer in x86 virtualization software. He started his career with Bain & Company, a strategic management consulting firm, and holds an MBA from INSEAD, and MS, BS and BA degrees in Electrical Engineering and East Asian Studies from Stanford University.

CTO 4 分程度

AIとデータ管理がテクノロジーの新たな最強タッグである理由

AIとデータ管理は互いの強みを増幅し、データ戦略を新たな高みに引き上げます。

CTO 8 分程度