AIは今やあらゆる場所で活用されています。AIの台頭により、ソフトウェア開発やコンテンツ制作、カスタマーサポートなど、さまざまな業界のビジネスワークフローや業務のスピードは大きく変わりました。しかし、AIの民主化は素晴らしい成果をもたらす一方で、「AIスロップ」と呼ばれる問題も生み出しています。これは、不自然、不正確、低品質で、ときには有害でさえあるAI生成物を指します。これらの問題の頻度や深刻さは、基盤となるインフラの強度と安定性に大きく依存します。そこでSplunkが導入したのが、Splunk Observability CloudのAI向けオブザーバビリティ機能である、AI Infrastructure Monitoringと、このたび新たに加わったAI Agent Monitoringです。これらの機能がAIスタック全体の可視化と保護を実現します。
大規模言語モデル(LLM)の非決定論的で生成的な挙動は、不正確さ、バイアス、虚偽を含んだ情報を頻繁に出力するおそれがあります。このような問題が最終的には顧客からの信頼低下、エンドユーザーエクスペリエンスの劣化、コストの増大につながる可能性があります。システム間の依存関係やインタラクションを理解することは、こうした問題やサービス劣化の根本原因を特定するうえで極めて重要です。信頼性の高いAIを構築するには、AIスタック全体を一元的かつ詳細に可視化する必要があります。これにより、オンプレミス、ハイブリッド、クラウド環境にまたがって、エージェントのインタラクションやツール呼び出し(およびAIインフラのコンポーネント)によって生成されるパフォーマンス、品質、セキュリティ、コスト、利用状況の各メトリクスと、ビジネス上の問題を相関付けることが可能になります。そして、それを実現するのがAI Agent Monitoringです。
Splunk Application Performance Monitoring (APM)のトラブルシューティングおよび監視機能を拡張するAI Agent Monitoringにより、チームはエージェント型アプリケーションへの信頼を高めることができます。AI Agent Monitoringを使えば、IT運用チームやエンジニアリングチームは、AIエージェントやモデルの信頼性低下やパフォーマンス劣化の根本原因を特定し、それらを相関付けて分析できます。また、APMとAI Agent Monitoringを統合することで、トレースレベルの可視性が得られ、AIアプリケーションと非AIアプリケーションの両方を容易にトラブルシューティングできるようになります。
Splunkが提供する統合的なオブザーバビリティエクスペリエンスを通じて、チームはフロントエンドのパフォーマンスに関するインサイトを得て、シームレスなユーザーエクスペリエンスを実現できます。その基盤となるのは、業界最高クラスのアプリケーション、インフラ、デジタルエクスペリエンスの監視機能であり、相関付けられたビジネスインサイト、アプリケーションセキュリティ、ネットワークオブザーバビリティが簡単に利用できます。また、Splunkプラットフォームのログ分析、テレメトリパイプライン管理、イベントインテリジェンスと組み合わせることで、膨大なマシンデータを分析できます。Splunk Observability CloudでSplunkプラットフォームのログをコンテキストとともに確認したり、オブザーバビリティのインサイトをSplunkプラットフォームに直接取り込んだりすることも可能です。
また、AI Agent MonitoringはOpenTelemetryとシスコのAGNTCYという業界標準を基盤としているため、AIエージェントの監視におけるベンダーロックインを回避することもできます。

AIエージェントページでは、環境内のすべてのエージェントについて、パフォーマンス、コスト、セキュリティのメトリクスに関する集計データや個別データを確認できます。総リクエスト数、エラーの総数と発生率、レイテンシ、トークンの総数、入力数、出力数とそれぞれのコスト、品質スコア、リスクといった主要なメトリクスを追跡することで、各エージェントの健全性と効率性の概要を明確に把握できます。こうした包括的なビューとAIエージェントリストの検索機能を駆使して、環境内にどのようなエージェントが存在するかを把握し、重大な問題を抱えるエージェントを特定するとともに、対応が必要な箇所を理解できます。

チームは、各エージェントのパフォーマンスメトリクス、トークンの使用量とコスト配分、品質とリスク指標の履歴トレンド分析をすぐに利用できます。この可視性により、ベースラインを設定し、外れ値を検出し、データに基づいてコストやリソースの最適化の判断を行うことが可能です。また、これらのメトリクスのいずれかにアラートを設定することで、問題を迅速に検知してトラブルシューティングすることもできます。

チームは、関連するAIトレースデータを確認して、ある期間において最も多く発生した品質上の問題やリスク、詳細なユーザーインタラクションを把握できます。AIトレースデータページでは、トレースIDごとのLLMプロンプト(入力)やレスポンス(出力)、それぞれの日付、さらにハルシネーション(事実に反する誤った情報)、バイアス、センチメント(否定的な表現)、有毒性(攻撃的な表現)などの品質上の問題を参照できるため、LLM固有の問題を特定および調査し、問題が評判や業務に与える影響を軽減することができます。また、パフォーマンスを測定するにあたり、Splunk AI Agent Monitoringは、LLMを評価者として用いる、「LLM-as-a-judge」という手法を活用しています。

トレースビューでは、スパンの詳細、ツール呼び出しの実行時間やメモリ使用量、エージェントのワークフローや実行パスを把握できるため、パフォーマンスのボトルネックを検出し、リソースやコストを最適化できます。

AI Agent Monitoringは、Cisco AI Defenseとの統合を通じて、LLM、エージェント、ツールなどのAIに伴うリスクや誤用、予測精度の低下、情報漏洩、脅威を検出および軽減できる機能をまもなく提供する予定です。この追加のセキュリティレイヤーにより、チームは双方向のガードレールを活用してAIアプリケーションをリアルタイムの脅威から保護し、プロンプトインジェクション、機密データの流出、有害コンテンツといったさまざまなリスクを防止できるようになります。また、AIセキュリティ基準への準拠が実現することで、信頼性の高いAIアプリケーションやシステムを構築して展開し、侵害を防いで運用のレジリエンスを維持できます。
従来のインフラは大きく変化しました。現在のAIインフラには、画像処理ユニット(GPU)、LLM、ベクトルデータベース、AIフレームワークやライブラリなど、新たなコンポーネントが含まれています。これらの新しいものに加え、従来のコンピュート、ネットワーク、メモリ、ストレージといったコンポーネントをまたいでAIワークロードを管理するには、これまで以上に多くのリソースとコストが必要です。高度な学習や推論、遅延の低減、情報に基づいた意思決定、高品質な出力、より信頼性の高いモデルやエージェントへの要求が高まるにつれて、この複雑さは今後も増していくでしょう。
こうした状況に対応するため、Splunkは昨年、AI Infrastructure Monitoringをリリースしました。2025年11月からは、AI Infrastructure Monitoringを活用して、Nvidia NIM、MilvusやPineconeといったベクトルデータベース、LiteLLMプロキシサービス、GCP VertexAIアプリケーション、Cisco AI POD、その他のコンポーネントを、豊富なデータを提供するダッシュボードやディテクターで確認できるようになりました。
これらのダッシュボードでは、GPUの使用率や消費電力といったGPU関連のメトリクスに加え、Time to First Token(出力開始までの時間)や推定トークンコストなどの「トークノミクス」のメトリクスも表示されるため、Cisco AI PODなどのホスト型AIインフラの利用状況やワークロード効率を評価できます。

Cisco AI PODは、事前検証済みでフルスタックのインフラハードウェアソリューションで、Cisco UCSサーバーやNexus 9000シリーズスイッチ、Cisco Intersightなどの統合ソフトウェアコンポーネントを含むため、AI Infrastructure MonitoringのダッシュボードではUCSファン速度、ホスト温度、ホスト電力などの主要なメトリクスも確認できます。

このエンドツーエンドの可視性により、安定性、コスト、可用性、セキュリティに影響する問題が生じているAIインフラコンポーネントをすばやく発見し、ビジネスの健全性や使用傾向と相関付けることで、パフォーマンスや組織の評判低下のリスクを緩和できます。
Linux FoundationのプロジェクトであるAGNTCYは、オープンで相互運用可能な「Internet of Agents (エージェントのインターネット)」を構築しており、AIエージェントがあらゆるフレームワークやベンダー間で連携できる基盤インフラの実現を目指しています。AGNTCYは、共通のプロトコル、識別システム、ディスカバリーサービスを定義することで、エージェントが安全かつシームレスに協働できる未来を創造します。Cisco、Google、RedHat、Dell、Oracleなど80社以上のメンバーで構成されるAGNTCYは、業界リーダーを結集し、マルチエージェントシステムを本番環境で稼働させるための重要なコンポーネントの開発、標準化、保守に取り組んでいます。
オープンスタンダードでIT運用チームとエンジニアリングチームを支援するという自社の方針に沿って、SplunkはLinux FoundationプロジェクトであるAGNTCYに引き続き貢献し、LLMやエージェント型アプリケーションにおいてもベンダーに依存しない一貫したテレメトリ収集を実現することで、お客様に価値を提供できるよう尽力します。また、Splunkは今後もAGNTCYのMetrics Compute Engineのコンポーネントを活用し、事実性や一貫性などの高度な品質メトリクスと遅延やエラー率などの基本的なメトリクスを提供します。SplunkとAGNTCYについて詳しくは、こちらのブログをご覧ください。
AI Agent Monitoringの設定方法はこちらでご覧いただけます。また、AIのためのSplunkオブザーバビリティについて詳しくは、こちらのブログをご覧ください。
このブログはこちらの英語ブログの翻訳、末永 真理によるレビューです。