false
splunk background

Splunk Observability:概要、ユースケース、メリット、レビューなど

現代のITチームおよびエンジニアリングチームにおいてオブザーバビリティが担う役割、その主なユースケースとメリット、そしてSplunk Observabilityが包括的な可視化と問題解決の早期化を実現する仕組みについてご紹介します。

Splunk Observabilityの概要

重要なポイント

  • すべてのレイヤーにわたる一元的な可視化:メトリクス、トレース、ログ、イベントを、すべてのアプリケーション、インフラ、ネットワーク、デジタルエクスペリエンスから1カ所に集約してリアルタイムで表示し、あらゆるチームに提供します。
  • AIを活用した検出と解決:AIがガイドする調査と根本原因分析により、アラートのノイズを除去し、トリアージを加速して、問題の解決時間を最大95%短縮できます。
  • ビジネスへの影響をすばやく把握:技術的なパフォーマンスをビジネス成果に直接結びつけます。最重要事項を優先し、収益を守り、信頼性を測定可能な価値へとつなげます。
  • オープンで柔軟性が高く、未来志向:Splunk Observabilityは、OpenTelemetryなどのオープンスタンダードに基づいて構築されています。クラウド、オンプレミス、ハイブリッドといったあらゆる環境に適応し、ベンダーロックインはありません。
  • エンドツーエンドのデジタルエクスペリエンス管理:リアルユーザー監視、外形監視、ネットワーク監視により、ユーザージャーニーのあらゆる段階を監視、最適化、保護します。これによってシームレスなデジタルエクスペリエンスを顧客と従業員に提供します。

オブザーバビリティとは

現代のデジタルシステムを構築する基盤は、目まぐるしく変化する分散型のアーキテクチャです。その範囲は、アプリケーション、インフラ、ネットワーク、クラウドサービスに広がっています。従来の監視ツールは、問題が発生したことは示してくれます。しかし、その原因や、ユーザーとビジネスに及ぼす影響は示してくれません。

オブザーバビリティは、その先をカバーするものです。スタックのすべてのレイヤーにわたって点と点を結び付けることで、各チームはシステムの動作をリアルタイムで確認し、問題の根本原因を特定して、ビジネスへの実際の影響を把握できます。

オブザーバビリティは、テレメトリの4つの主なタイプを柱としています。これらはよく、MELTと呼ばれます。

  • メトリクス:定量的な指標。CPU使用率、応答時間、エラー率などパフォーマンスの傾向を捉えます。
  • イベント:コンテキストデータ。デプロイ、設定の更新、機能フラグの切り替えなどの重要な変更を示します。
  • ログ:システム活動をタイムスタンプ付きで詳細に記録したもの。問題の発生前から発生中、発生後までの経過を説明するのに役立ちます。
  • トレース:リクエストに関するエンドツーエンドの記録。1件のリクエストについて、サービス、依存関係、インフラを横断して追跡することにより、遅延やエラーの発生箇所を明らかにします。

それらのデータタイプを相関付けすることで、システムの全体像を有機的に把握できます。これによって各チームは、ハイブリッド、マルチクラウド、AIドリブン型といったさまざまな環境にわたって、トラブルシューティングを加速し、障害を未然に防ぎ、パフォーマンスを継続的に最適化できるようになります。

完全ガイド「オブザーバビリティとは」で詳細を読む >

Splunk Observabilityとは

Splunk Observabilityは、統合ポートフォリオです。リアルタイムかつエンドツーエンドの可視化を、アプリケーション、インフラ、ネットワーク、デジタルエクスペリエンス全体を網羅して各チームに提供します。これにより、組織が問題の検出と解決を加速し、信頼性を向上させ、技術的なパフォーマンスをビジネス成果に直接結び付ける支援をします。

Splunk Observabilityは、OpenTelemetryなどのオープンスタンダードに基づいて構築され、ハイブリッドおよびマルチクラウド環境向けに設計されています。そのため組織のアーキテクチャの進化に合わせて適応でき、ベンダーロックインは発生しません。メトリクス、イベント、ログ、トレースの相関付けを1カ所で行い、AIドリブンの分析によって最も重要な情報を浮き彫りにして、ノイズを除去し、インサイト取得までの時間を短縮します。

メリット

  • 解決時間の短縮:統合テレメトリ、AI支援による調査、根本原因分析を活用することで、平均解決時間(MTTR)を50~95%短縮します。
  • 信頼性の向上:予測型の健全性スコアと異常検出により、サービスレベルの信頼性を向上させ、障害の未然防止を支援します。
  • 支出の合理化:コストとパフォーマンスの分析により、インフラの使用をビジネスの優先事項に合わせて調整し、クラウドリソースを最適化して、無駄をなくします。

Splunk Observabilityのコンポーネント

Splunk Observabilityは、目的別の製品で構成されています。これらの製品は連携して動作し、フルスタックの可視化、迅速なトラブルシューティング、包括的な運用インサイトを提供します。また、それぞれの製品が最新のデジタル環境の主なレイヤーに対応しており、インフラからアプリケーション、ユーザーエクスペリエンスに至るまでカバーしています。

Splunk Observability Cloud

Splunk Observability Cloudは、クラウドネイティブのSaaSプラットフォームとして、リアルタイムのメトリクス、トレース、ログを提供します。以下の機能を備えています。

Splunk AppDynamics

Splunk AppDynamicsは、アプリケーションパフォーマンス管理(APM)ソリューションとしてSplunkのポートフォリオに加わりました。コードレベルの詳細な可視化、ビジネストランザクションの監視、ユーザーエクスペリエンスに関するインサイトで定評があります。複雑な分散アプリケーションの詳細なパフォーマンスデータを提供し、多くの場合は特にエンタープライズグレードの基幹システムを対象としています。APM、RUM、Business IQ機能をすべて搭載しています。

Splunk IT Service Intelligence (ITSI)

Splunk IT Service Intelligence (ITSI)は、分析主導型のIT管理ソリューションです。アラート疲れを軽減し、重要な問題に優先順位を付けるとともに、顧客に影響が及ぶ前にインシデントを予測します。AIと機械学習を用いて複数の監視ソースからのデータを相関付けることで、イベント管理を効率化し、ビジネスコンテキストを浮き彫りにします。予測機能を取り入れたリアルタイムのダッシュボードでサービスの健全性を監視できるとともに、ServiceNowやSplunk SOARといったITSMツールやオーケストレーションツールと統合することで、インシデントにエンドツーエンドで対応できます。これにより、各チームはインシデントの監視、検出、対応、解決まですべてを1カ所で実行できるようになります。

Splunkプラットフォーム:Splunk EnterpriseとSplunk Cloud Platform

Splunkプラットフォームとは、Splunk EnterpriseとSplunk Cloud Platformを指します。これらの基盤プラットフォームは、Splunk全体としてのデータ戦略の中核となります。いずれも、マシンデータをほぼあらゆるソースから取り込んで、インデックス化、サーチ、分析、可視化するための中核となる機能を備えています。Splunk Observability Cloudでは、メトリクス、トレース、ログの取り込みと分析に特化した機能を利用できます。一方で、より広範なSplunkプラットフォームは、引き続き次のような大切な役目を果たします。

  • 包括的なログ管理:あらゆるログデータの長期保管、コンプライアンス遵守、詳細なフォレンジック分析に対応します。Observability Cloudに直接流入しないログデータも対象に含まれます。
  • セキュリティおよび運用インテリジェンス:オブザーバビリティデータをセキュリティイベントやビジネスデータなどの運用インサイトと相関付け、全体像を提示します。
  • カスタムデータソース:特注システムやレガシーアプリケーションといった、専用のオブザーバビリティエージェントでカバーされないものからデータを取り込んで分析します。

Splunk Observability:主な機能と優位性

Splunk Observabilityアーキテクチャは、複雑化と分散化の進む環境において、組織によるデジタルレジリエンスの構築、イノベーションの加速、コストの制御を支援するために開発されています。統合的な設計によって、Splunkならではの3つの特長を確立し、各チームが最も重要な業務に集中できるようにします。

1. 詳細なビジネスコンテキストで重要事項に優先対応

Splunk Observabilityは、組織がインフラやアプリケーションの健全性にとどまらず、あらゆるパフォーマンス関連問題がビジネスに及ぼす影響を可視化できるようにします。そのアーキテクチャは、アプリケーション、インフラ、そして組織内外のネットワークからのテレメトリを相関付けできる設計です。これによって、テクノロジーの健全性をビジネスプロセス、ユーザーエクスペリエンス、成果に関連付けしやすくなります。

  • 整理されたビジネスインサイト:バックエンドサービスをグループ化し、チェックアウト、注文履行、ローン処理といったビジネスプロセスを可視化することで、重要な要素を監視します。
  • ビジネスジャーニーのマッピング:何段階ものワークフローとユーザーフローをスタック全体にわたり追跡し、問題を特定して、ビジネスへの影響に基づいて優先順位を付けます。
  • カスタムKPIのサポート:テレメトリへのビジネスコンテキストの付与を、柔軟なタグ付け(ユーザーIDや店舗IDなど)とカスタムメトリクスによって動的に行います。これにより、インシデントが収益、顧客セグメント、主要業務に与える影響を細かく把握できます。
  • 包括的な環境カバレッジ:ネットワーク、インフラ、アプリケーションなどあらゆる環境にわたり、完全な可視化と、相関付けによるインサイトを得られます。どのような導入モデルにも対応できます。

こうした業務との深い整合性によって、各チームは実際の影響に基づいて問題に優先順位を付け、意思決定を加速し、価値を生み出す成果にリソースを集中できるようになります。

2. AIを活用した検出と調査で、ビジネスに影響する問題に対応

Splunk Observabilityの中核にはAIを活用したリアルタイムの分析エンジンが置かれています。これによって、デジタル環境全体にわたり、インシデントの検出、調査、修復が効率化できます。このアーキテクチャには、高速テレメトリ処理、スキーマオンリードという柔軟性に加え、ノイズを除去して最も重要な情報を抽出するための高度な機械学習が組み込まれています。

  • 大規模なリアルタイム分析:スタック全体からのテレメトリデータをストリーミングして数秒で分析できるかたちで、最新の高速環境に対応しています。
  • AI/機械学習による異常検出:エージェント型AIと組み込み機械学習を活用して、問題の初期兆候を発見し、パターンを検出し、インシデントをその拡大前に予測します。
  • 根本原因分析とガイド付きワークフロー:AIガイド付きのトラブルシューティングによって、複雑かつ連鎖的な問題の原因をすばやく切り分けることができます。問題がアプリケーション、インフラ、ネットワーク、AI/機械学習ワークロードを横断している場合でも対応します。
  • インシデントへの統一的な対応:あらゆるソースからの関連アラートに相関付けを行って1つの実用的なビューにまとめるとともに、ワークフローを自動化して速やかな復旧につなげます。

Splunk Observabilityは、プラットフォーム全体にわたってAIによるインサイトを組み込むことで、各チームがアラート疲れを最小限に抑え、ウォールーム(作戦指令室)での対応時間を削減し、ビジネスクリティカルなインシデントを迅速かつ確実に解決できるよう支援します。

3. 予測可能な価格体系でデータとコストを管理

Splunk Observabilityアーキテクチャは、効率的な拡張ができるように設計されています。そのため、組織はデータを完全な管理下に置きながら、支払いは必要な分だけにとどめることができます。オープンスタンダード、柔軟なデータ管理、ネイティブのパイプライン制御により、透明性と選択肢を確保しています。

  • OpenTelemetryネイティブの取り込み:オープンスタンダードを用いてテレメトリデータの収集とインストルメンテーション(計装)が行えます。独自のエージェントが不要になり、技術的負債が軽減されます。
  • 柔軟なデータパイプライン管理:テレメトリデータを取り込む際に変換、フィルタリング、集約、ルーティングすることで、組織は増加するデータ量を効率的に管理し、コストの急増を抑制できます。
  • フェデレーション分析とストレージ:データが低コストストレージを含めどのような場所に保管されていても、1カ所に集約する必要なく、分析が行えます。
  • 予測可能な課金モデル:シンプルで拡張性の高い価格体系により、高額な超過料金や予算外の支出を抑えることができます。ホストベースや柔軟な使用量ベースのオプションも用意され、クラウド、オンプレミス、ハイブリッド環境での展開をサポートします。

こうしたアーキテクチャ基盤により、Splunk Observabilityは、組織がオブザーバビリティの実践を確実に拡大し、ROIを最大化し、データと支出ともに制御できるようにします。

ユースケース:トラブルシューティングと根本原因分析(RCA)

定義:Splunk Observabilityは、AIドリブンの検出、診断、即時対応を提供して、アプリケーションやインフラを横断したパフォーマンスの問題に組織が対処できるようにします。

技術概要:Splunkは、大量で多種多様なマシンデータを、スキーマオンリードのアプローチを通じて統合し、実践的なインサイトを生成します。対象となるマシンデータには、非構造化ログ、メトリクス、トレースが含まれます。Splunkプラットフォーム(EnterpriseおよびCloud)とIT Service Intelligence (ITSI)は、サードパーティやシスコとの統合を含め、ほぼあらゆるデータソースを対象として、大規模な取り込み、フィルタリング、変換を行います。高度なAI/機械学習モデルが、アラートを相関付け、根本原因を特定し、ビジネスコンテキストと自動化を通じて各チームが問題を解決できるよう導きます。

主要な機能

  • アラートの一元化と削減
    • Splunk、サードパーティ、イベント管理ツールのアラートを統合的に取り込み、相関付けを行います。
    • AI/機械学習を使ったEvent iQおよび動的しきい値により、アラートを動的にグループ化してノイズを低減し、季節性の調整を行います。
    • しきい値のカスタムウィンドウを使えば、予定されているビジネスイベント(ブラックフライデーなど)に備えて事前に調整できます。
  • 根本原因分析とインシデント対応の自動化
    • AIドリブンのインスタントトラブルシューティングでは、考えられる発生原因と影響を受けるサービスを浮き彫りにし、それを統合ダッシュボードで確認できます。
    • エピソードレビューによって、コンテキストを豊富に備えたタイムライン、修復履歴、関連チケットへのリンクが提供されます。
    • 電子メール、スクリプト、Splunk SOARを介して自動化します。双方向のチケット連携とカスタムランブックにより、対応をスピードアップします。
  • アプリケーションとインフラのトラブルシューティング
    • メトリクス、ログ、トレースのテレメトリを3秒以内でリアルタイムに更新します。
    • ビジネストランザクション、サービスマップ、Tag Spotlight、Trace Analyzer、コールグラフでワークフローを可視化し、詳細に分析します。
    • 統合テレメトリ(REDメトリクス、インフラダッシュボード、サービス統合ビュー)では、関連コンテンツを通じた即時の相互リンク付けも利用できます。
  • AIドリブンのインスタントトラブルシューティング
    • ログ、メトリクス、トレース、エンティティの健全性に関するガイド付きのワークフローを、ビジネスへの影響度に応じた優先順位とともに利用できます。
    • アラートをグループ化した「エピソード」に関してAIがサマリーを生成し、実践的なインサイトと次のステップとともに提示します。

仕組み

  1. OpenTelemetryおよびSplunkネイティブのコネクタを使用して、クラウド、オンプレミス、サードパーティのソースからメトリクス、ログ、トレースを取り込みます。
  2. AI/機械学習によりアラートの相関付けとグループ化を行い、ノイズを低減して重大なインシデントを特定します。
  3. 統合インターフェイスで、考えられる根本原因と影響を受けるサービスを明らかにします。
  4. コンテキストデータ、過去のエピソード、可視化機能により、エンジニアの調査および修復作業に指針を示します。
  5. 対応アクションを自動化し、チーム間のコラボレーションをリアルタイムの共有データで促進します。

ユースケースの例

  • Kubernetesベースのマイクロサービス環境で、サービス劣化について診断します。
  • アプリケーション遅延について、ハイブリッドクラウド導入環境における特定のバックエンド依存関係まで追跡します。
  • 失敗したビジネストランザクションについて、ログとトレースを相関付けることにより、分散したワークフローにわたって調査を進めます。

成果

  • アラート疲れの軽減とインシデントトリアージの迅速化。
  • 重大なインシデントのMTTDおよびMTTRの短縮。
  • IT運用チーム、SREチーム、エンジニアリングチームの連携強化。
  • ビジネスサービスの信頼性と稼働率の向上。

意義:問題を迅速かつ正確に検出して解決することで、ダウンタイムを最小限に抑え、運用上のオーバーヘッドを削減して、サービスの信頼性と顧客からの信頼を各チームが維持できるようにします。

エッジケースと考慮事項:
ITSIコンテンツパックを使用して、大量のアラートを事前に検出し、未然に防止できます。ハイブリッドのマルチアーキテクチャ(n層、マイクロサービス、COTS)環境に対応しています。Log Observer Connectにより、ログを重複して取り込むことなく、プラットフォームを横断して高度なトラブルシューティングを実施できます。

ユースケース:重要なビジネスプロセスの監視

定義:Splunk Observabilityは、パフォーマンスの問題がビジネスプロセス、KPI、ミッションクリティカルなワークフローに与える影響をチームがリアルタイムで把握できるようにします。

技術概要:SplunkプラットフォームとITSIは、カスタマイズ可能なライブダッシュボード(グラステーブル)を提供します。これによって、IT、アプリケーション、ネットワーク、ビジネスサービスのデータを相関付けることができます。デジタルメトリクスと非デジタルメトリクスの両方を取り込み、幅広いステークホルダーをサポートします。AppDynamicsとコンテンツパックでは、商用アプリケーションやSaaSアプリケーション(SAP、M365など)を迅速に導入して詳細に監視できます。技術的なパフォーマンスをビジネスへの影響に関連付けることもできます。

主要な機能

  • ビジネスサービスの統合的な可視化
    • グラステーブルでは、組織内外のネットワークとさまざまなアーキテクチャ全体にわたり、資産、KPI、ビジネスエンティティの健全性をリアルタイムで可視化できます。
    • サービスアナライザーでは、サービスとインフラの健全性を色分けされたトポロジーで表示できます。
  • サービスの健全性分析
    • ログ、メトリクス、トレースの相関付けを即座に行い、依存関係と影響をすばやく分析できます。
    • KPIやエンティティレベルまでドリルダウンして問題を切り分けます。過去のベースラインとの比較で傾向を明らかにできます。
  • COTSおよびSAPアプリケーションの監視
    • SAP製品の監視を、AppDynamics (Java/ABAPエージェントによる詳細なコードレベル)およびITSI (PowerConnect for ABAPテレメトリ)を介して行えます。
    • SAPやM365などのビジネスアプリケーションで即座に使えるコンテンツパックにより、迅速な導入とメトリクスの標準化を実現します。
  • 継続的な改善と報告
    • 組み込みの分析機能により、MTTD、MTTR、アラートノイズのベースライン設定や追跡ができます。
    • カスタムKPIの進捗を追跡して、ITとビジネス双方のステークホルダー向けレポートの作成に役立てることができます。
    • ビジネスパフォーマンス分析ダッシュボードとリリース検証により、技術メトリクスとビジネスメトリクス(コンバージョン、収益など)を結び付け、経営陣による監視を支援します。
  • ビジネスプロセスのマッピングとKPIのカスタマイズ
    • AppDynamicsのビジネスジャーニーでは、ワークフローをエンドツーエンドでマッピングして、KPIをユーザーエクスペリエンスやビジネス成果と相関付けることができます。
    • カスタムメトリクスやトラッキング(ユーザー/店舗ID、顧客セグメントなど)を無制限で利用して、ビジネスへの影響をきめ細かく分析できます。

仕組み

  1. アプリケーション、インフラ、サードパーティツールから、テレメトリデータとビジネスデータを取り込みます。
  2. グラステーブル、サービスアナライザー、ビジネスジャーニーを使用して、サービスとビジネスプロセスを関連付けます。
  3. ITメトリクスをビジネスKPI/SLOに相関付けして、ビジネスの影響を包括的に分析します。
  4. アラートをリアルタイムで生成し、技術面とビジネス面のステークホルダー双方に役立つ傾向を明らかにします。
  5. 主なメトリクスのベースライン設定、追跡、レポート作成により、継続的な改善が見込めます。

ユースケースの例

  • ITインシデントが収益創出ワークフローに及ぼす影響を監視します。
  • SAPでのビジネストランザクションの健全性を追跡し、プロセスの遅延を特定します。
  • 基幹事業部門におけるサービスレベルのパフォーマンスをSLA要件に照らして分析します。

成果

  • ビジネスに影響するインシデントの特定に要する時間を短縮。
  • 運用上および経営上のステークホルダーへの報告体制の強化。
  • ITパフォーマンスとビジネス成果の整合性の向上。

意義:ITおよびアプリケーションのパフォーマンスがビジネス成果に与える影響を理解することで、各チームは最重要課題に優先して対応し、収益を守り、スムーズなユーザーエクスペリエンスを確保できます。

エッジケースと考慮事項:
デジタルKPIおよび非デジタルKPI(病院の空き病床数、物理資産の状態など)の両方をサポートします。従来型の3層環境や、最新型のクラウドネイティブやマイクロサービスといった環境と統合できます。SaaSおよびCOTSアプリケーション向けのコンテンツパックにより、迅速に導入し、ベストプラクティスに基づくメトリクスを利用できます。

ユースケース:重要なユーザージャーニーの把握

定義:Splunk Observabilityが提供するエンドツーエンドの可視化は、ユーザーがたどるすべてのステップを、Web/モバイルアプリケーションから、API、ネットワーク、バックエンドサービスまで、エンドツーエンドでカバーします。

技術概要:Splunk Observability CloudとAppDynamicsでは、Real User Monitoring (RUM)、Synthetic Monitoring、Application Performance Monitoring (APM)のほか、ThousandEyesなどのネットワークオブザーバビリティと連携することで、技術的な健全性とビジネスへの影響について相関付けに基づくインサイトを獲得できます。このアプローチにより、各チームはデジタルユーザージャーニーのあらゆる段階を、フロントエンド、バックエンド、外部API、ネットワークパスにわたり、把握、監視、最適化できます。

主要な機能

  • デジタルエクスペリエンスの包括的な監視
    • RUM、Synthetic Monitoring、APM、ネットワークオブザーバビリティを組み合わせて、ユーザージャーニーを包括的に把握します。
    • ブラウザ、モバイルアプリ、API、バックエンド、クラウドインフラからのテレメトリをリアルタイムで取得します。
  • ユーザージャーニーのマッピングと可視化
    • AppDynamicsのエクスペリエンスジャーニーマップでは、ユーザーフローとフリクションポイントを可視化できます。
    • セッションリプレイ、ヒートマップ、パス分析により、ユーザーがスムーズに操作できる箇所と戸惑う箇所を明らかにできます。
  • プロアクティブな検出とネットワークパス分析
    • Synthetic Monitoringを使えば、世界中のプライベートな場所からユーザージャーニーを24時間365日検証でき、導入前にリグレッションを検出できます。
    • ThousandEyes統合により、ホップバイホップのネットワークの健全性(パケットロス、DNS、BGP)をユーザートランザクションに関連付けることができます。
  • 根本原因分析
    • サンプリングなしの分散トレーシングと機械学習を活用した異常検出により、問題をフルスタックにわたってすばやく特定できます。
    • AIが支援する根本原因分析では、問題の発生源がコード、マイクロサービス、CDN、外部イベントなのかを正確に特定できます。
  • ビジネス成果の相関付けとコラボレーション
    • ダッシュボードでは、技術的な健全性とビジネスKPI (コンバージョン、収益、満足度)を関連付けできます。
    • SLO/SLAの追跡と統合的なワークスペースによって、チーム間(ITOps、SRE、NetOps、プロダクト)の共同作業を促進できます。

仕組み

  1. OpenTelemetry、RUM、APM、外形監視を使用して、すべてのアプリケーション/ネットワーク層からテレメトリを収集します。
  2. フロントエンド/バックエンドのパフォーマンスを、ユーザーインタラクションやビジネスKPIと相関付けます。
  3. ダッシュボード、ジャーニーマップ、セッション分析により、ユーザージャーニーとフリクションポイントを可視化します。
  4. 分散システムおよびネットワークパスにわたってユーザートランザクションを追跡することで、根本原因分析を実現します。
  5. 主なユーザーセグメントに影響する問題を特定し、優先順位を付けることで、継続的な最適化を支援します。

ユースケースの例

  • eコマースプラットフォームでのチェックアウトフローの遅延を、複数のAPIとネットワークホップにわたって診断します。
  • SaaSアプリケーションで、ネットワークの遅延やサードパーティAPIの不具合がユーザーエクスペリエンスに与える影響を特定します。
  • ワークフローの修正について、高価値をもたらす顧客やトップクラスの顧客に影響する問題を優先します。

成果

  • ユーザーに影響する問題の迅速な解決。
  • デジタルエクスペリエンスの最適化と顧客満足度の向上。
  • 技術的なパフォーマンスをビジネス成果に直接結びつける能力の強化。

意義:ユーザーエクスペリエンスをエンドツーエンドで可視化することで、組織はフリクションポイントを迅速に特定して対応し、デジタルジャーニーを最適化して、顧客の満足度と定着率を向上させることができます。

エッジケースと考慮事項:
トラブルシューティングは、ハイブリッド/パブリッククラウド環境でも、さまざまなサードパーティAPIを介しても実行できます。組み込みのネットワーク可視化機能により、ユーザー境界外の根本原因を切り分けます。デジタルおよび物理的なタッチポイントの両方にわたり分散化の進んだ複雑なユーザージャーニーに対応しています。

ユースケース:アプリケーションとインフラのパフォーマンス最適化

定義:Splunk Observabilityは、ハイブリッド環境とクラウドネイティブ環境の全体にわたり、アプリケーションとインフラの信頼性、リソース効率、ユーザーエクスペリエンスを積極的に向上させます。

技術概要:Splunkが提供するオブザーバビリティと最適化は、従来型(n層、COTS)環境とクラウドネイティブ(マイクロサービス、コンテナ)環境の両方に対応しています。Splunkは、AlwaysOn Profiling、リアルタイムのインフラ監視、SLOに基づいたアラート、予測分析を組み合わせることで、継続的なパフォーマンス最適化とコスト管理を実現します。

主要な機能

  • 継続的なプロファイリング(AlwaysOn Profiling)
    • 本番環境における関数/行ごとのCPUとメモリの使用量をキャプチャし、ボトルネックやメモリリークを特定します。
  • インフラの最適化
    • サーバー、コンテナ、クラウドリソースのCPU、メモリ、ストレージ、ネットワークの使用状況を監視します。
    • リソースのプロビジョニングの過不足を指摘し、インフラメトリクスとアプリケーションパフォーマンスとの相関付けを行い、適切な規模になるよう調整します。
  • SLOに基づいたパフォーマンス監視
    • サービスレベル目標(SLO)を定義して追跡し、バーンレート分析を用いてサービスの劣化を予測および防止します。
  • 外形監視
    • 世界各地の拠点の可用性とパフォーマンスを継続的にテストし、ユーザーに影響が及ぶ前に問題を検出します。
    • コストがAPIテスト1万件あたり1ドルと費用対効果に優れており、企業利用での拡張性を備えています。
  • 機械学習による分析(AppDynamicsおよびITSI)
    • 動的しきい値と予測分析により、パフォーマンスの低下を予測して防ぎます。
    • 誤検出を減らすとともに、異常を早期に可視化して、発生前の修復対応を可能にします。

仕組み

  1. AlwaysOn Profilingとインフラのリアルタイム監視を用いて、アプリケーションのコードとインフラリソースの使用状況を継続的にプロファイリングします。
  2. 機械学習による分析を使用して、ベースラインと動的しきい値を設定します。
  3. SLOの監視を行い、信頼性の目標やパフォーマンスのベースラインからの逸脱をアラートします。
  4. 外形監視データとリアルユーザーテストデータを統合し、エンドツーエンドで検証します。
  5. ワークロードのサイズの適正化とアプリケーションの最適化に向けた実践的な推奨事項を提示します。

ユースケースの例

  • Javaマイクロサービスでのメモリリークを検出して解決します。
  • クラウドリソースの割り当てを最適化し、インフラ支出を削減します。
  • 注目度の高い製品のリリース前にパフォーマンスの低下を予測し、防止します。

成果

  • アプリケーションとインフラの効率向上。
  • 運用コストの削減と拡張性の強化。
  • 安定した高パフォーマンスによるユーザーエクスペリエンスの向上。

意義:パフォーマンスのプロアクティブな調整とリソース最適化により、コストを削減し、システム停止を防ぎ、ユーザーと顧客に一貫して高品質なエクスペリエンスを確保します。

エッジケースと考慮事項:
ハイブリッドのアプリケーションスタック(n層、COTS、マイクロサービス)に対応しています。OpenTelemetryネイティブなので、ベンダーロックインも独自のエージェントも回避できます。レガシー環境とクラウドネイティブ環境の両方に対応した拡張性を備えています。

ユースケース:オブザーバビリティコストの最適化

定義:Splunk Observabilityは、テレメトリの量と支出を効率的に管理するツールを提供します。オープンスタンダードをサポートし、予測可能で柔軟な価格体系を提供しています。

技術概要:Splunkのプラットフォームと柔軟な価格モデルは、組織での大規模なデータ管理、ベンダーロックインの回避、オブザーバビリティの価値の最適化を支援します。高度なデータ管理、パイプライン制御、コスト最適化ツールを使って、テレメトリの収集、保存、支出をきめ細かに監視できます。

主要な機能

  • OpenTelemetryネイティブのデータの取り込み:SDK、API、ツールを介して一元化されたデータ収集ができます。独自のエージェントが不要になるとともに、複数の用途に使うテレメトリの取り込みも1回で済みます。
  • メトリクスパイプライン管理:不要なメトリクスを集約、フィルタリング、アーカイブ、削除します。パイプラインの自動化によって、使われていないメトリクスや低価値のメトリクスを特定し、アーカイブします。アーカイブされたメトリクスは、コストが10分の1以下になります。
  • 高カーディナリティ制御:チームやサービスごとにトークンを制限します。分析機能によって高ボリュームのトークンを特定し、メトリクスのストレージや使用状況を最適化します。
  • ヒストグラムメトリクス:大量のメトリクスを圧縮し、効率的な傾向分析のための詳細かつ実践的なインサイトに変換します。
  • データのルーティング、フィルタリング、変換:Ingest ProcessorとEdge Processorを使い、取り込み時およびネットワークエッジにおいて、SPL2ベースのフィルタリング、マスキング、エンリッチメント、ルーティングを実行します。
  • 保持と統合サーチ:保持に関して、きめ細かな制御ができます。統合サーチでは、一元的に集約することなく、複数のSplunk環境にわたってサーチが行えます。
  • コスト監視および最適化ツール:AWS EC2 Cost Optimizer、ダッシュボード、および課金しきい値に関するアラートが組み込まれています。
  • 予測可能で透明性のある価格体系:柔軟なモデル(ホスト、ワークロード、取り込み、エンティティ、アクティビティごと)により、高額な超過料金が発生しません。

仕組み

  1. OpenTelemetryおよびSplunkネイティブのデータ管理ツールを使用して、テレメトリを取り込み、処理し、ルーティングします。
  2. パイプライン自動化を適用し、メトリクスとログを使用状況と価値に基づいて集約、フィルタリング、アーカイブします。
  3. ダッシュボード、アラート、組み込みのコスト分析ツールを通じて、コストの監視と最適化を行います。
  4. ストレージ、保持、ポリシー準拠に関する可視化とガバナンスを提供します。
  5. クラウド環境とオンプレミス環境のいずれとも統合でき、オブザーバビリティのコストを包括的かつ拡張性のあるかたちで管理できます。

ユースケースの例

  • 取り込みパイプラインから低価値のメトリクスをフィルタリングして、監視コストを削減します。
  • 規制ポリシーおよびビジネスポリシーへの準拠のために、テレメトリの量と保持期間を管理します。
  • AWS EC2リソースの監視を最適化し、料金の超過を防いでクラウドのコストを管理します。

成果

  • オブザーバビリティコストの削減と予測可能性の向上。
  • 拡張性を保ちつつ重要なインサイトを失うこともないデータ管理。
  • テレメトリの収集、保持、課金に関する管理の強化。

意義:テレメトリの量と支出を効率的に管理することで、組織はコストをコントロールしながらオブザーバビリティを拡張し、ROIを最大化し、高額な超過料金を回避できます。

エッジケースと考慮事項:
ショーバックやチャージバックをサポートし、チーム間やサービス間でコストをきめ細かく配分できます。Log Observer Connectにより、ログをシームレスに統合します。カーディナリティが高くテレメトリの増加が変動する環境を念頭に設計されています。

ユースケース:アプリケーションセキュリティの脆弱性の検出と優先順位付け

定義:Splunk Observabilityは、アプリケーションコード内の脆弱性や攻撃を検出し、実際のリスクとビジネスへの影響に基づいて対応に優先順位を付けます。

技術概要:Splunk Secure Applicationによって、アプリケーションのセキュリティをオブザーバビリティと統合します。これにより、脆弱性の検出、保護、リスクに基づいた優先順位付けをリアルタイムで実施できるようになります。Splunkで既存のAPMエージェントとコンテキスト分析を活用することにより、各チームは運用オーバーヘッドを最小限に抑えながら、セキュリティ脅威の検出、優先順位付け、修復を実行できます。

主要な機能

  • 統合ランタイムセキュリティ
    • 既存のAPM/オブザーバビリティエージェントを活用して、コードスキャンとエクスプロイトに対するランタイム保護を継続的に適用します。
    • オブザーバビリティワークフロー内で、脅威を直接検出し緩和できます。
  • コンテキストに基づくリスク分析
    • ビジネスへの影響(たとえば、重要な決済フローなのかテスト環境か)に基づき、リスクに自動でスコアを付けます。
    • AI/機械学習ドリブンの優先順位付けにより、影響が大きくすぐに対応可能な脆弱性を明らかにして、アラート疲れを最小限に抑えます。
  • 自動検出とブロック
    • 進化する脅威に対し、リアルタイムの防御を個々のコード行レベルにまで適用します。
    • セキュリティリスクに関する即時フィードバックを、ユーザーエクスペリエンスやビジネスKPIと相関付けて提供します。
  • インシデント対応での連携
    • ITOps、エンジニアリング、SecOpsチーム間でダッシュボードとインシデントビューを共有して利用できます。
    • Splunk SIEMおよびSOARとの緊密な統合により、対応の調整、エスカレーション、ワークフローの追跡が可能になります。

仕組み

  1. 既存のAPMエージェントを使用して、アプリケーションコード、インフラ、ビジネスワークフローからテレメトリとセキュリティデータを取り込みます。
  2. 統合された脅威インテリジェンスと高度な分析を用いて、継続的に脆弱性をスキャンし、ランタイム動作を監視します。
  3. セキュリティアラートをアプリケーションコンテキストやビジネスへの影響と相関付けして、最も重要な問題に優先順位を付けます。
  4. SIEM/SOAR統合を通じて修復アクションを自動化し、インシデントをセキュリティチームにエスカレーションします。
  5. 絶え間ない監視と分析による継続的な改善を支援します。

ユースケースの例

  • 本番環境のアプリケーションに対するSQLインジェクション攻撃を検出して阻止します。
  • 支払いフローなど高価値のビジネスプロセスでの脆弱性を優先して対処します。
  • セキュリティイベントのエスカレーションと、ITチームとセキュリティチーム間での対応の調整を自動化します。

成果

  • 脆弱性の検出の迅速化と平均修復時間(MTTR)の短縮。
  • データ侵害およびコンプライアンス違反によるリスクの低減。
  • アプリケーションの強固な防御に向けた、セキュリティおよび運用チーム間の連携の強化。

意義:リスクベースの継続的なアプリケーションセキュリティにより、侵害リスクを低減し、修復を加速し、事業運営と顧客データを保護できます。

エッジケースと考慮事項:
アプリ内および外部攻撃ベクトルのいずれにも対応しています。運用オーバーヘッドを最小限に抑える設計です(既存のオブザーバビリティエージェントを活用することでツールの乱立を防ぎます)。ハイブリッドおよびクラウドネイティブのアーキテクチャに拡張して適用できます。

ユースケース:ネットワークドメインの相関付け

定義:Splunk ObservabilityとIT Service Intelligence (ITSI)は、ThousandEyes、Catalyst Center、Merakiほかあらゆるネットワークドメインにわたり包括的な可視化を行い、アラートノイズを削減することで、ネットワークサービスの健全性を確保します。

技術概要:Splunk Observabilityでは、ITチーム、ネットワークチーム、アプリケーションチーム間で1つの統合プラットフォームを利用することによりサイロを解消できます。このプラットフォームでは、組織内外のネットワーク、インフラ、ビジネスアプリケーションからの健全性およびパフォーマンスに関するデータを1カ所で監視し、相関付けることができます。また、ITSIのイベント分析およびコンテンツパックには、シスコおよびサードパーティソース向けのすぐに使える統合機能が含まれています。これにより、迅速な導入、クロスドメインアラートの強化、高度な分析が可能になり、チームがネットワークとサービスの健全性をリアルタイムで包括的に把握できるようになります。

主要な機能

  • ネットワークとサービスの統合的な可視化
    • あらゆるドメインからのテレメトリ(メトリクス、ログ、イベント、トレース)を1カ所に集約して相関付けを行います。ドメインは組織内外のネットワーク、インフラ、アプリケーションを問いません。
    • カスタムダッシュボードとグラステーブルでは、技術面とビジネス面の両方のステークホルダー向けに、資産、KPI、基幹サービスの健全性を可視化できます。
  • クロスドメインでのアラートの相関付けとノイズ低減
    • 異なるドメイン(シスコ、Meraki、ThousandEyes、サードパーティ)からの関連アラートをグループ化することで、ノイズを減らし、重要な問題に優先順位を付けます。
    • イベントにビジネスコンテキストを付与し、インシデントへの優先順位付けを自動化して、トリアージを加速します。
  • エンドツーエンドのトラブルシューティングとコンテキストに基づくインサイト
    • 相関付けがなされた証拠に基づいて根本原因と影響を受けたドメインをすばやく切り分け、MTTDとMTTRを短縮します。
    • 技術的なパフォーマンスをビジネスKPIや成果と関連付けることで、経営層に役立つレベルのリアルタイムビューを作成します。
  • あらゆるデータに対応する柔軟なオンボーディング
    • SplunkBaseのコンテンツパックを利用して、Splunkおよび外部ツールからのネットワーク、インフラ、アプリケーションのデータを簡単に統合します。

仕組み

  1. ITSIおよびSplunk統合を介して、組織内外のネットワーク、インフラ、アプリケーションからテレメトリを取り込み、正規化します。
  2. アラートとイベントをあらゆるドメインにわたり相関付けてグループ化し、ビジネスおよび技術的なコンテキストによって強化します。
  3. 技術チームとビジネスステークホルダーの双方に向けた統合ダッシュボードを生成し、サービスとネットワークの健全性をリアルタイムで表示します。
  4. 各チームがドメインを切り分け、根本原因を特定し、修復を自動化またはエスカレーションするよう支援します。
  5. アラート疲れの軽減度、MTTDとMTTRの改善度合い、ビジネスKPIへの影響を追跡して、継続的な改善をサポートします。

ユースケースの例

  • ネットワークおよびアプリケーションからの重複するアラートを対応可能な1つのインシデントにグループ化することで、アラート疲れを軽減します。
  • 経営層に役立つレベルのリアルタイムダッシュボードを利用し、規制や運用上のKPI(救急車の稼働率、待ち時間など)を監視します。
  • サービスの健全性と影響に関する包括的なビューを全員に提供することにより、ネットワークチーム、アプリケーションチーム、インフラチーム間の分断を解消します。

成果

  • デジタルスタック全体にわたるインシデントの迅速な検出と解決。
  • 運用オーバーヘッドとアラート疲れの軽減。
  • 技術的な兆候だけでなく、ビジネスへの影響にも基づく明確な優先順位付け。

意義:クロスドメインの包括的な可視性とアラートの相関付けによって、ダウンタイムを最小限に抑え、トラブルシューティングを加速して、ITチームとビジネスチームがレジリエンスの高いデジタルサービスの実現に集中できるようにします。

エッジケースと考慮事項:
規制の厳しい環境や重要な環境向けに、デジタルおよび非デジタル両方のKPIをサポートします。データソースに依存せず、レガシーおよび最新のネットワークインフラと容易に統合できます。Splunkbaseコンテンツパックとコネクタにより、迅速に導入し、拡張できます。

ユースケース:ネットワークがアプリケーションのパフォーマンスに与える影響を特定

定義:Splunk ObservabilityとThousandEyesは、組織内外のネットワーク間の依存関係をリアルタイムで相関付けることにより、アプリケーションのパフォーマンス問題のトラブルシューティングを支援します。

技術概要:ThousandEyesをSplunk Observability CloudおよびAppDynamicsと統合することで、組織はITOpsチーム、エンジニアリングチーム、NetOpsチーム間のサイロを解消できます。アプリケーション、インフラ、およびすべてのネットワークホップ(内部およびサードパーティ)からの統合テレメトリによって、根本原因がコード、インフラ、ネットワークのいずれにあるかを正確に特定できます。共有ダッシュボード、エンドツーエンドの相関付け、継続的なベンチマークにより、各チームは問題解決を加速し、デジタルエクスペリエンスを最適化できます。

主要な機能

  • エンドツーエンドの包括的な可視性
    • アプリケーション、インフラ、ネットワークのテレメトリをリアルタイムで相関付けます。サードパーティのISPやクラウドプロバイダーも対象です。
    • すべてのチームが共有ダッシュボードで証拠を確認でき、推測に基づく作業や調査のサイロ化を回避できます。
  • チーム間の連携とインシデント解決
    • 統合コンテキストを提供することによって、根本原因分析に携わるNetOps、ITOps、エンジニアリングチーム間のスムーズな連携を促します。
    • ThousandEyesとの双方向統合により、ネットワークパスの高精度分析やパフォーマンスのベンチマークが行えます。
  • プロアクティブな監視とベンチマーク
    • 継続的な監視により、すべてのネットワークドメインにわたりパフォーマンスの低下を検出し、傾向を追跡します。
    • ベンダーの説明責任を明確にして、サービスレベルをプロアクティブに管理できるようにします。
  • トラブルシューティングの加速とMTTIの短縮
    • 問題の根本原因がコード、インフラ、外部ネットワークのいずれなのかを迅速に切り分けます。
    • 不要なエスカレーションを減らし、平均潔白証明時間(MTTI)を短縮します。

仕組み

  1. ThousandEyesをSplunk ObservabilityおよびAppDynamicsと双方向に統合します。
  2. アプリケーション、インフラ、および組織内外のすべてのネットワークドメインからリアルタイムのテレメトリを収集し、相関付けを行います。
  3. 統合ダッシュボードとアラートを生成し、すべてのチームが協力して問題を調査できるようにします。
  4. ネットワークパスの分析と継続的なベンチマークを通じて、問題を正確に特定し、パートナーの責任を明確にします。
  5. プロアクティブに最適化を行い、デジタルでのスムーズなユーザーエクスペリエンスを実現します。

ユースケースの例

  • マルチドメインのトラブルシューティングにおいて、根本原因がネットワークにないことを即座に実証して、MTTIを短縮します。
  • ネットワークのパフォーマンスをベンチマークし、障害を予測するとともに、サードパーティパートナーとのSLAが確実に履行されるようにします。
  • SaaSトランザクションの遅延の原因が、コード変更、内部インフラ、外部ISP障害のいずれなのかを特定します。

成果

  • アプリケーション、インフラ、ネットワークドメインにわたるインシデント解決の時間短縮と精度向上。
  • MTTIの短縮と不要なエスカレーションの削減。
  • デジタルエクスペリエンスと事業継続性の強化。

意義:デジタルデリバリーチェーン全体にわたる統合的な可視化により、死角をなくし、根本原因分析を加速して、各チームが信頼性の高い、パフォーマンスの優れたデジタルエクスペリエンスを提供できるようにします。

エッジケースと考慮事項:
クラウド、SaaS、マルチISPアーキテクチャを含むハイブリッド環境に対応しています。ネットワークパフォーマンス管理を、プロアクティブにもリアクティブにも行えます。世界各地に分散した組織や複雑なデジタルデリバリーチェーンを持つ組織にも対応した拡張性を備えています。

ユースケース:AIアプリケーションとインフラの監視

定義:Splunk Observabilityは、AIアプリケーションのスタック全体の健全性、パフォーマンス、セキュリティをリアルタイムで監視します。エージェント、LLM、AIインフラもカバーすることで、信頼性、効率性、ビジネスとの整合性を確保します。

技術概要:ビジネスに不可欠になりつつあるAIおよびLLMワークロードに対し、Splunk Observability for AIが、アプリケーション層とインフラ層の両方を包括的に監視します。Splunkは、OpenTelemetryにネイティブ対応したインストルメンテーション(計装)、リアルタイムダッシュボード、Cisco AI Podsとのシームレスな統合を提供します。これにより、あらゆるフレームワーク、エージェント、環境にわたりリソースの使用状況、モデルの精度、セキュリティ、ビジネスへの影響に関する実用的なインサイトを生成します。統合されたAI Agent MonitoringとAI Defenseにより、品質もコスト効率も高い責任あるAIの実現に向けて、運用およびセキュリティを可視化します。

主要な機能

  • AIインフラの健全性およびパフォーマンス監視
    • AIインフラ(Cisco AI Pods、GPU、ベクトルデータベースなど)の健全性、可用性、消費状況を監視します。
    • データの豊富なダッシュボードでは、ビジネスパフォーマンスを運用メトリクス(使用状況、エラー率、ボトルネック)と相関付けることができます。
  • LLMおよびエージェント型アプリケーションの包括的な監視
    • LLM/エージェントのワークフロー、トークン使用状況、レイテンシ、エラー、ドリフト、ハルシネーションを追跡し、分析します。
    • 専門的な評価により、モデル出力の意味的な品質と技術的なパフォーマンスを監視します。
  • 統合セキュリティおよびコンプライアンス
    • Cisco AI Defenseにより、プロンプトインジェクションやPHI漏洩、関連するセキュリティ上の脅威を検出し防ぎます。
    • AIのセキュリティリスクをインフラやサービスと結び付け、包括的なガバナンスとコンプライアンスを実現します。
  • OpenTelemetryネイティブ対応によるベンダーを選ばない統合
    • すべてのAIフレームワークに対応した、エージェントなしの柔軟な監視で、ベンダーロックインを回避します。
    • Cisco AI Podsやその他の環境で実行されるワークロードの監視をサポートします。
  • 継続的な最適化とガバナンス
    • ベンチマークを自動化し、SLOをリアルタイムで追跡して、パフォーマンスとリスクを継続的に最適化します。
    • ガバナンス機能により、規制および組織の基準に対するコンプライアンスと説明責任を徹底します。

仕組み

  1. OpenTelemetryとSplunkネイティブの統合機能を使い、AIインフラとLLM/エージェント型アプリケーションのインストルメンテーションを行います。
  2. メトリクス、イベント、ログ、トレースを収集して、統合ダッシュボードでネットワークおよびセキュリティテレメトリと相関付けます。
  3. AIリソースの使用状況、パフォーマンス、セキュリティを追跡し、異常に対して実践的なアラートと検出手段を示します。
  4. 根本原因分析の実施をサポートし、コスト、信頼性、ビジネスへの影響を最適化します。
  5. 運用メトリクスと精度メトリクスの両方を監視し、組織ポリシーを適用して、コンプライアンスとガバナンスを支援します。

ユースケースの例

  • AIのマルチテナントインフラにおいて、推論の失敗やリソースの競合を検出し、トラブルシューティングします。
  • LLM搭載アプリケーションでの意味的なドリフト、バイアス、ハルシネーションを監視し、ビジネスの評判を守ります。
  • AIワークロードにおいて、PHI漏洩リスクと規制に関するKPIを追跡して、コンプライアンスを徹底します。

成果

  • プロアクティブな監視とガバナンスによる、運用リスクと評判リスクの低減。
  • AIインフラにおけるリソース使用の最適化とコスト削減。
  • AI搭載アプリケーションの信頼性、パフォーマンス、セキュリティの向上。

意義:AIアプリケーションスタックの包括的な統合監視により、組織はコンプライアンス要件に準拠し、信頼性とコスト効率の高いAIをビジネス目標に即したかたちで構築、展開、運用できます。

エッジケースと考慮事項

  • クラウドとオンプレミスの両方でのAI導入をサポートします。Cisco AI Podsやサードパーティのインフラにも対応しています。
  • 大規模、分散型、マルチフレームワークのAI環境にも対応した拡張性を備えています。
  • 専用のAI/LLMエージェント監視プラットフォームと統合して、包括的な監視を実現します。

 

Splunk Observabilityを各チームで活用する方法:ロールベースの機能とメリット

Splunk Observabilityでは、コア機能に加え、組織内の役割やチームに応じてカスタマイズされたインサイトとメリットを利用でき、各自の運用目標やビジネス目標の達成を促進できます。

IT運用およびサイト信頼性エンジニアリング(SRE)チーム

Splunk Observabilityは、ITOpsチーム、SREチーム、DevOpsチームやビジネスリーダーのニーズに応えて、デジタルサービス全体にわたり統一された可視性とインテリジェンスを提供します。以下のロール別の表は、さまざまなチームがポートフォリオをどのように業務に適用しているかを示しています。

ユースケース Splunk Observabilityの機能 成果/メリット
サービスのプロアクティブな確保 サービス健全性スコア、異常検出、リアルタイムのストリーミングテレメトリ。 顧客に影響が及ぶ前に問題を検出および解決。SLAの確実な履行。
迅速なインシデント対応 分散トレーシング、コンテキストログの相関付け、AIドリブンの根本原因分析。 MTTRの大幅削減(50~95%)、ダウンタイムと業務の中断の低減。
インフラの最適化 高解像度のインフラメトリクス、マルチクラウド環境の統合ダッシュボード。 過剰プロビジョニングの抑制、キャパシティプランニングの最適化、コスト削減。
運用の自動化 機械学習によるイベントの相関付け、インシデント管理やランブック自動化との統合。 アラート疲れの軽減、定型的な修正の自動化、エンジニアを解放してイノベーションに費やす時間を確保。
脆弱性と攻撃の阻止 脆弱性パッチ適用と攻撃阻止のためのセキュリティポリシー管理。 プロアクティブな脅威対応によるリスク軽減、リスクのシステムへの影響の未然防止。

意義:ITOpsチームおよびSREチームが重要なサービスのレジリエンスを確保しながら信頼性を向上し、インシデントを迅速に解決し、コストを最適化できます。

DevOpsチームおよびアプリケーション開発チーム

DevOpsチームおよびエンジニアリングチームは、ソフトウェアのライフサイクル全体を通じてオブザーバビリティを必要としており、それによってデプロイの検証や迅速なデバッグを行います。Splunk ObservabilityはCI/CDパイプラインと統合して、本番環境におけるエンドツーエンドのコンテキストを提供します。

ユースケース Splunk Observabilityの機能 成果/メリット
パフォーマンスの検証 リアルタイムのアプリケーションメトリクスとトランザクションの可視化。 本番環境での導入の検証、リグレッションの早期検出。
デバッグの加速 完全忠実なトレーシング、コンテキスト付きログ、ユーザーセッションリプレイ。 分単位での根本原因特定、ダウンタイムの抑制。
クライアントサイドおよびモバイルの監視 ユーザーによる操作の追跡、フロントエンドのパフォーマンスのメトリクス、外形監視。 さまざまなブラウザやデバイスにわたるユーザーエクスペリエンスの最適化。
オブザーバビリティのシフトレフト OpenTelemetryネイティブのインストルメンテーション、CI/CDツール統合。 リリース前に問題を検出、責任を明確化。
脆弱性の検出と優先順位付け ランタイム脆弱性スキャン、ビジネスリスクのスコア付け、修復ガイダンス。 検出と優先順位付けの迅速化、SLAの対応時間の短縮。

意義:DevOpsチームと開発者は、機能を迅速かつ確実に提供し、ソフトウェアの品質を向上させ、本番環境での安定性を維持できます。

ビジネスリーダーとデジタルエクスペリエンスチーム

ビジネスチームとデジタルエクスペリエンスチームは、技術的なパフォーマンスをダイレクトに顧客満足度と収益の向上に結び付けたいと考えています。Splunk Observabilityは、アプリケーションとサービスの健全性をビジネス成果にリアルタイムで結び付けます。

ユースケース Splunk Observabilityの機能 成果/メリット
ビジネストランザクションの監視 トランザクションのパフォーマンスのリアルタイム分析。 アプリケーションパフォーマンスとビジネス成果との整合。
カスタマーエクスペリエンスの最適化 リアルユーザー監視、フロントエンドとバックエンドのパフォーマンスの相関付け。 顧客と従業員のデジタルエクスペリエンスの継続的な改善。
ビジネス視点でのサービス健全性 サービス視点のダッシュボード、サービスの予測分析。 収益と顧客への効果に基づく投資の優先順位付け。
データに基づく意思決定 運用テレメトリとビジネスメトリクスの相関付け。 リアルタイムの運用データに裏打ちされた情報に基づく意思決定。

意義:ビジネスリーダーは、デジタルサービスが測定可能な価値を創出し、カスタマーエクスペリエンスを改善し、収益を確保しているという確信を持つことができます。

Splunk Observabilityのメリット

Splunk Observabilityを利用する組織は、信頼性を強化し、パフォーマンスを向上させ、データをビジネス上の優位性につなげることができます。Splunk Observabilityのポートフォリオによって、各チームは問題の検出と解決を加速するとともに、運用を最適化し、リアルタイムのインサイトに基づいて一層的確な意思決定を行えるようになります。

1. 問題の検出と解決にかかる時間の短縮

Splunkはメトリクス、トレース、ログ、イベントの相関付けを行い、1つのビューに集約します。AIを活用した分析によって各チームは根本原因に迷わず到達し、平均解決時間(MTTR)を50~95%短縮できます。この統合アプローチにより、推測に頼った作業をなくし、インシデント対応サイクルを短縮して、ダウンタイムを削減できます。

2. 信頼性とレジリエンスの向上

予測分析と異常検出により、ユーザーに影響が及ぶ前にリスクを明らかにします。サービスの健全性スコアによって、各チームは最も深刻な問題に優先対応しやすくなり、ビジネスにとってきわめて重要なアプリケーションやサービスの稼働率を確保できます。

3. 顧客と従業員のためのデジタルエクスペリエンスの改善

Splunk Observabilityは、Real User Monitoring (RUM)とSynthetic Monitoringを通じて、ユーザー視点で実際のサービスの状況がどうなっているかを、さまざまなデバイスや地域やネットワーク全体にわたって追跡します。この可視性により、各チームは問題点を特定し、遅延を低減し、あらゆる場所で高速かつ安定したエクスペリエンスを提供できます。

4. 運用効率の向上

AIを活用してイベントの相関付けや自動化を行うことによって、アラートのノイズや手作業の繰り返しを削減できます。各チームは発生した問題の対応に費やす時間を減らし、システムの改善、プロセスの強化、イノベーションの推進にあてる時間を増やすことができます。エージェント型AIを使えば、定型的な問題を自動的に計測、検出、トラブルシューティングして、負担をさらに軽減できます。

5. クラウドとインフラのコストの最適化

Splunk Observabilityでは、オンプレミス、ハイブリッド、マルチクラウド環境の全体にわたってリソースの使用状況を可視化できます。各チームはキャパシティを需要に合わせて調整し、コストとパフォーマンスを比較分析することで、信頼性を損なうことなく過剰なプロビジョニングを防ぎ、支出を制御できます。

6. あらゆる環境にわたるエンドツーエンドの可視性

Splunkは、最新のマイクロサービスからレガシーシステムまで、アプリケーション、インフラ、ネットワーク、AIワークロードまですべてのレイヤーを網羅します。このエンドツーエンドのカバレッジにより、死角をなくし、さまざまなチームやツールや環境を横断して一貫したインサイトを獲得できます。

7. ビジネスへの影響の明確化と連携の強化

Splunkでは、技術的パフォーマンスをサービスレベル目標(SLO)、コンプライアンス目標、コンバージョンや収益などのビジネスKPIに直接結び付けることができます。経営陣はシステムの信頼性がカスタマーエクスペリエンスや業績に及ぼす影響を可視化して、オブザーバビリティデータからビジネスインテリジェンスを引き出すことができます。

8. オープンな未来志向のアーキテクチャ

OpenTelemetryとオープンスタンダードを基盤とするSplunk Observabilityでは、ベンダーロックインを回避するとともに、進化するアーキテクチャに合わせて拡張できます。組織は新しいテクノロジーを導入しながら、ツールやエージェントを入れ替える必要なく、オブザーバビリティの運用を拡大できます。

9. セキュリティとリスクの可視性の向上

統合されたアプリケーションのランタイム監視と高度な相関付けにより、脆弱性や攻撃を早期に検出しやすくなります。セキュリティシグナルをアプリケーションやサービスの健全性と結びつけることで、各チームは問題をすばやく解決し、ビジネスリスクを低減できます。

Splunk Observabilityの価格体系

Splunkのオブザーバビリティポートフォリオ全体の価格体系は、製品ごとに、固有の機能と導入モデルを反映して設定されています。単一の統合された価格ではなく、製品と使用状況に基づいて算出したコストを組み合わせた価格になります。

ポートフォリオの価格体系に関する主な注意事項は、次のとおりです。

  • Splunk Observability Cloud:このクラウドネイティブのSaaS製品は、基本的に従量制モデルを採用しています。コストの計算は、主に取り込みデータ量(メトリクス、トレース、ログ、RUMセッション)と外形監視でのチェック数に基づきます。
  • AppDynamics:価格設定は通常、アプリケーションとインフラのエージェント数、またはCPU数に基づきます。ただし、APM、RUM、Business IQ、データベース監視など一部の機能には、異なる区分またはモジュールが適用されます。SaaS版またはオンプレミス版として提供されます。
  • Splunk IT Service Intelligence (ITSI):基盤となるSplunk EnterpriseまたはSplunk Cloud Platform、いずれかご利用中のライセンスに連動します。
  • Splunk EnterpriseおよびSplunk Cloud Platform:Splunkプラットフォームの価格体系は、ワークロードまたは取り込み量に基づきます。ワークロードベースの場合、データのサーチや処理で消費される計算リソース(vCPU、SVCなど)に連動します。そのため、データの取り込みについては、最初から取捨選択するよりも、今後の分析に備えて多く取り込むほうが合理的です。一方、取り込み量ベースの場合、プラットフォームに取り込む1日あたりのデータ量に応じてコストが算出されます。

ポートフォリオはいくつもの製品から構成されています。そのため、組織は通常、Splunkの営業担当者と連携し、具体的な監視ニーズ、既存のインフラ、データ量に応じて製品の最適な組み合わせと関連コストを決定します。柔軟な選択肢を提供することで、さまざまな運用要件や予算に適合できるよう配慮しています。

統合

Splunk Observabilityは、現代のITエコシステム全体と幅広く統合して、組織がほぼあらゆるソースからテレメトリデータを収集し分析できるように設計されています。Splunk製品はもちろん、サードパーティのテクノロジーとも広範かつシームレスに連携します。

内部統合(Splunkポートフォリオ内)

  • Splunk Observability Cloud + Splunkプラットフォーム:オブザーバビリティデータを転送して、長期保管、高度な分析、セキュリティデータおよびビジネスデータとの相関付けを行うことができます。
  • AppDynamics + Splunkプラットフォーム:アプリケーショントランザクションの可視化を運用やセキュリティに関するインサイトと組み合わせ、統一されたコンテキストを取得できます。
  • IT Service Intelligence + Observability Cloud/AppDynamics:ITSIによって、機械学習を活用したサービスの健全性把握、異常検出、予測分析が行えます。ITSIをObservability CloudやAppDynamicsと統合すれば、サービスのハイレベルの概観から詳細なテレメトリデータへとスムーズにドリルダウンし、トラブルシューティングを加速できます。
  • Log Observer Connect:Splunk AppDynamicsのユーザーがSplunkプラットフォーム内で関連ログの詳細にすばやく容易にアクセスできるようにして、トラブルシューティングの加速につなげます。
  • 複数の製品を横断した連携:APM、RUM、Synthetic Monitoring、Infrastructure Monitoring、AppDynamics、ITSIをスムーズに切り替え、さまざまなレイヤーにわたって問題を追跡できます。
  • AppDynamics Secure Application + Splunk Enterprise Security + SOAR:セキュリティイベントを先進的なSIEMであるSplunk Enterprise Securityに転送することで、調査を促進し対応を自動化できます。

Splunkとシスコの統合

  • ThousandEyes + AppDynamics/Observability Cloud/ITSI:ThousandEyesのネットワークインテリジェンスを、アプリケーションパフォーマンス(AppDynamics)、クラウドネイティブテレメトリ(Observability Cloud)、サービスの健全性分析(ITSI)と統合し、デジタルエクスペリエンスをエンドツーエンドで監視します。
  • ITSI + Cisco Enterprise Network (Catalyst Center、Meraki):Catalyst CenterやMerakiなどシスコのネットワークインフラからの詳細なインサイトを用いて、ITSIのサービス中心の監視を強化し、ネットワークの健全性をビジネスサービスのパフォーマンスと相関付けることができます。

外部統合(サードパーティのテクノロジーとツール)

  • クラウドプロバイダー:アマゾン ウェブ サービス(AWS)、Azure、GCPと統合し、ネイティブサービスからのメトリクス、ログ、トレースを収集します。
  • オペレーティングシステムと仮想化:Linux、Windows、VMwareなど。
  • コンテナとオーケストレーション:Kubernetes、Docker、OpenShiftのほか、IstioやLinkerdなどのサービスメッシュテクノロジー。
  • アプリケーションフレームワークおよび言語:Java、Python、Node.js、.NET、Go、Rubyなど。
  • データベースとメッセージングシステム:SQL、NoSQL、Kafka、RabbitMQなど。
  • CI/CDおよびDevOpsツール:Jenkins、GitHub Actionsのほか、導入前の検証のための統合。
  • インシデントおよびコラボレーションツール:PagerDuty、ServiceNow、Slack、Microsoft Teams、Opsgenie、VictorOpsのほか、カスタムWebhook。
  • オープンスタンダード:OpenTelemetryネイティブ対応により、OpenTelemetryでインストルメンテーションされたあらゆるシステムからデータを取得でき、ベンダーロックインが発生することはありません。

SplunkBaseでその他の統合とアプリを見る >

導入オプション

Splunk Observabilityは、エンタープライズ規模の組織でクラウドネイティブ、ハイブリッド、オンプレミス環境を網羅してサポートするよう設計されています。そのポートフォリオは、SaaSベースのサービスを柔軟な導入オプションと組み合わせることで、運用やコンプライアンスに関する多様なニーズに対応します。導入は分かりやすいかたちになっています。

  • SaaSファースト:ポートフォリオの多くは、フルマネージドのクラウドサービスとして提供されています。
  • オンプレミスとハイブリッド:AppDynamicsとSplunk Enterpriseは、制御やデータレジデンシーが求められる環境でも導入できます。
  • 最小限の設定:お客様は主にデータ収集とアカウント統合を設定します。スケーリング、レジリエンス、アップグレードの管理はSplunkが行います。

製品別の導入について技術文書で詳しく見る >

Splunk Observabilityに対するユーザーレビュー

Splunkの広範なオブザーバビリティポートフォリオ(Splunk Observability Cloud、AppDynamics、Splunk ITSIなど)に対するユーザーフィードバックでは、包括的な可視性と高度な分析機能が高く評価されています。一方、コストや実装の複雑さに関してよく考慮される点も挙げられています。

ユーザーが評価する機能

  • アプリケーション、インフラ、ユーザーエクスペリエンスにわたる包括的な可視性。
  • AI/機械学習によるインサイト。トラブルシューティングを加速しMTTRを短縮します。
  • エンタープライズ規模のスケーラビリティ。分散した大規模な環境に対応しています。
  • 技術的なパフォーマンスをビジネス成果に直接結び付ける機能。
  • ITOps、DevOps、ビジネスチーム間での連携の強化。

よくある考慮事項

  • 大規模な環境にわたりデータ取り込みを拡張する際のコスト。
  • 新規ユーザーにとっての学習の難しさ。特に複数製品の導入で挙げられています。
  • SaaS製品とオンプレミスコンポーネントを組み合わせる際の統合の複雑さ。

ユーザーからの評価の声

「クラウドベースのワンストップ監視ソリューションによって、トレースやログなどのメトリクスをリアルタイムで得られます。サービスの依存関係をはっきりと把握できます」— ソフトウェアエンジニア、Enterprise (G2)

「ログ、メトリクス、トレースが一元的に可視化されています…メトリクスが最強の機能です。高精度で細部を確認できます」— AWS Marketplaceのお客様

アナリストと業界の評価

お客様の成功事例:Splunk Observabilityで得た実際の成果

さまざまな業界の組織が、Splunk Observabilityを活用して、信頼性を向上させ、インシデントの解決をスピードアップするとともに、システムパフォーマンスをビジネス成果につなげています。

Progressive Insurance社(金融サービス)

Splunk Observabilityを活用し、複雑なアプリケーション全体にわたり完全忠実なトレーシングとリアルタイムのトラブルシューティングを実現しています。ログ、メトリクス、トレースを統合し、サービスの依存関係を継続的に可視化することで、時価総額で1,200億ドル超を保護しています。導入事例を読む >

Travelport社(旅行・ホスピタリティ)

旅行予約を世界規模で処理する基幹システムの管理のために、Splunk Observability CloudとIT Service Intelligenceを導入しました。その結果、誤検出を95%減らし、稼働率を向上させて、世界中の顧客とパートナーに向けた企業基盤のレジリエンスを強化できました。導入事例を読む >

Molina Healthcare社(ヘルスケア)

ITSIとObservability Cloudを活用して、MTTRを63%短縮し、重要なヘルスケアサービスの継続性を向上させました。このプラットフォームが提供するプロアクティブな監視によって、患者と医療提供者はシステムをいつでも確実に利用できるようになりました。導入事例を読む(英語) >

Lenovo社(小売業界・eコマース)

需要のピーク時にSplunk Observabilityを活用し、世界規模のインフラ全体にわたりパフォーマンスの監視を拡張しました。予測分析とリアルタイムのダッシュボードにより、トラフィックの急増時でも信頼性を維持し、成長の機会を創出できました。導入事例を読む >

Repay社(金融サービス)

大手決済テクノロジープロバイダーのRepay社は、Splunk Observability CloudとAI Assistantを利用してトラブルシューティングを簡素化し、根本原因分析を加速しています。異常なエラーデータを自動抽出することで、担当チームは手作業に頼った調査で迷走することなく、インシデントをすばやく解決できます。これにより、エンジニアはトリアージの繰り返しから解放されて、イノベーションに集中できるようになりました。導入事例を読む >

その他のオブザーバビリティ成功事例を読む >

Splunk Observabilityに関するよくある質問(FAQ)

Splunk Observabilityは、リアルタイムの監視プラットフォームです。メトリクス、ログ、トレース、イベントを相関付けて1つのビューに統合します。アプリケーション、インフラ、ネットワーク、AIワークロードにわたりエンドツーエンドで可視化することで、各チームが問題を早期に検出し、信頼性を向上させ、パフォーマンスをビジネス成果に結び付けられるよう支援します。

Splunk Observabilityはインシデントに際し、AIドリブンの分析、完全忠実なトレーシング、相関付けられたアラートを用いて根本原因をすばやく特定することで、インシデント対応を改善します。これにより、MTTRを短縮して、顧客への影響を防止できます。また、運用イベントが急速に進行する中でも、各チームはサービス、インフラ、依存関係にわたり完全なコンテキストを取得できます。

Splunk Observabilityは、テレメトリの取り込みを最適化し、リソースの使用を需要に合わせて調整し、過剰なプロビジョニングを減らすことで、コスト管理を支援します。各チームはコスト対パフォーマンスを分析して、データ関連の料金超過を防ぎ、オブザーバビリティの費用を想定内に抑えながら、トラブルシューティングや信頼性向上のための詳細なメトリクス、トレース、ログを収集できます。

ITOps、SRE、DevOps、エンジニアリング、ビジネスの各チームはそれぞれ、包括的な可視化と相関付けられたテレメトリを通じて、Splunk Observabilityのメリットを得られます。たとえば、トラブルシューティングを加速し、リリースを検証し、デジタルエクスペリエンスを向上させ、アラート疲れを軽減できます。さらに、リアルタイムのインサイトを通じて、サービスのパフォーマンスをビジネス成果や顧客成果に直接結び付けることができます。

他のプラットフォームとは異なるSplunk Observabilityの特長は、エンドツーエンドの可視性、OpenTelemetryネイティブのアーキテクチャ、機械学習による分析、幅広いエコシステム統合にあります。そのリーダーシップは、大手調査会社から何度にもわたり認められています。具体的には、拡張性、統合テレメトリ、そして技術的パフォーマンスとビジネス成果を結びつける能力が挙げられています。

はい、Splunk ObservabilityではAIワークロードやLLMワークロードを監視できます。具体的には、モデルのパフォーマンス、サービスの遅延、エージェントの動作、インフラの使用状況について、リアルタイムのインサイトが提供されます。これによって、各チームは複雑な分散アプリケーションアーキテクチャ全体にわたり大規模にトラブルシューティングをすばやく行い、信頼性を維持し、AIシステムを管理できます。

詳細はこちら

Splunk Observabilityは、パフォーマンスの問題がビジネスに及ぼす影響を可視化し、すばやく修正できるようにします。