Splunk Observability:主な機能と優位性
Splunk Observabilityアーキテクチャは、複雑化と分散化の進む環境において、組織によるデジタルレジリエンスの構築、イノベーションの加速、コストの制御を支援するために開発されています。統合的な設計によって、Splunkならではの3つの特長を確立し、各チームが最も重要な業務に集中できるようにします。
1. 詳細なビジネスコンテキストで重要事項に優先対応
Splunk Observabilityは、組織がインフラやアプリケーションの健全性にとどまらず、あらゆるパフォーマンス関連問題がビジネスに及ぼす影響を可視化できるようにします。そのアーキテクチャは、アプリケーション、インフラ、そして組織内外のネットワークからのテレメトリを相関付けできる設計です。これによって、テクノロジーの健全性をビジネスプロセス、ユーザーエクスペリエンス、成果に関連付けしやすくなります。
- 整理されたビジネスインサイト:バックエンドサービスをグループ化し、チェックアウト、注文履行、ローン処理といったビジネスプロセスを可視化することで、重要な要素を監視します。
- ビジネスジャーニーのマッピング:何段階ものワークフローとユーザーフローをスタック全体にわたり追跡し、問題を特定して、ビジネスへの影響に基づいて優先順位を付けます。
- カスタムKPIのサポート:テレメトリへのビジネスコンテキストの付与を、柔軟なタグ付け(ユーザーIDや店舗IDなど)とカスタムメトリクスによって動的に行います。これにより、インシデントが収益、顧客セグメント、主要業務に与える影響を細かく把握できます。
- 包括的な環境カバレッジ:ネットワーク、インフラ、アプリケーションなどあらゆる環境にわたり、完全な可視化と、相関付けによるインサイトを得られます。どのような導入モデルにも対応できます。
こうした業務との深い整合性によって、各チームは実際の影響に基づいて問題に優先順位を付け、意思決定を加速し、価値を生み出す成果にリソースを集中できるようになります。
2. AIを活用した検出と調査で、ビジネスに影響する問題に対応
Splunk Observabilityの中核にはAIを活用したリアルタイムの分析エンジンが置かれています。これによって、デジタル環境全体にわたり、インシデントの検出、調査、修復が効率化できます。このアーキテクチャには、高速テレメトリ処理、スキーマオンリードという柔軟性に加え、ノイズを除去して最も重要な情報を抽出するための高度な機械学習が組み込まれています。
- 大規模なリアルタイム分析:スタック全体からのテレメトリデータをストリーミングして数秒で分析できるかたちで、最新の高速環境に対応しています。
- AI/機械学習による異常検出:エージェント型AIと組み込み機械学習を活用して、問題の初期兆候を発見し、パターンを検出し、インシデントをその拡大前に予測します。
- 根本原因分析とガイド付きワークフロー:AIガイド付きのトラブルシューティングによって、複雑かつ連鎖的な問題の原因をすばやく切り分けることができます。問題がアプリケーション、インフラ、ネットワーク、AI/機械学習ワークロードを横断している場合でも対応します。
- インシデントへの統一的な対応:あらゆるソースからの関連アラートに相関付けを行って1つの実用的なビューにまとめるとともに、ワークフローを自動化して速やかな復旧につなげます。
Splunk Observabilityは、プラットフォーム全体にわたってAIによるインサイトを組み込むことで、各チームがアラート疲れを最小限に抑え、ウォールーム(作戦指令室)での対応時間を削減し、ビジネスクリティカルなインシデントを迅速かつ確実に解決できるよう支援します。
3. 予測可能な価格体系でデータとコストを管理
Splunk Observabilityアーキテクチャは、効率的な拡張ができるように設計されています。そのため、組織はデータを完全な管理下に置きながら、支払いは必要な分だけにとどめることができます。オープンスタンダード、柔軟なデータ管理、ネイティブのパイプライン制御により、透明性と選択肢を確保しています。
- OpenTelemetryネイティブの取り込み:オープンスタンダードを用いてテレメトリデータの収集とインストルメンテーション(計装)が行えます。独自のエージェントが不要になり、技術的負債が軽減されます。
- 柔軟なデータパイプライン管理:テレメトリデータを取り込む際に変換、フィルタリング、集約、ルーティングすることで、組織は増加するデータ量を効率的に管理し、コストの急増を抑制できます。
- フェデレーション分析とストレージ:データが低コストストレージを含めどのような場所に保管されていても、1カ所に集約する必要なく、分析が行えます。
- 予測可能な課金モデル:シンプルで拡張性の高い価格体系により、高額な超過料金や予算外の支出を抑えることができます。ホストベースや柔軟な使用量ベースのオプションも用意され、クラウド、オンプレミス、ハイブリッド環境での展開をサポートします。
こうしたアーキテクチャ基盤により、Splunk Observabilityは、組織がオブザーバビリティの実践を確実に拡大し、ROIを最大化し、データと支出ともに制御できるようにします。
Splunk Observabilityの一般的なユースケース
ユースケース:トラブルシューティングと根本原因分析(RCA)
定義:Splunk Observabilityは、AIドリブンの検出、診断、即時対応を提供して、アプリケーションやインフラを横断したパフォーマンスの問題に組織が対処できるようにします。
技術概要:Splunkは、大量で多種多様なマシンデータを、スキーマオンリードのアプローチを通じて統合し、実践的なインサイトを生成します。対象となるマシンデータには、非構造化ログ、メトリクス、トレースが含まれます。Splunkプラットフォーム(EnterpriseおよびCloud)とIT Service Intelligence (ITSI)は、サードパーティやシスコとの統合を含め、ほぼあらゆるデータソースを対象として、大規模な取り込み、フィルタリング、変換を行います。高度なAI/機械学習モデルが、アラートを相関付け、根本原因を特定し、ビジネスコンテキストと自動化を通じて各チームが問題を解決できるよう導きます。
主要な機能
- アラートの一元化と削減
- Splunk、サードパーティ、イベント管理ツールのアラートを統合的に取り込み、相関付けを行います。
- AI/機械学習を使ったEvent iQおよび動的しきい値により、アラートを動的にグループ化してノイズを低減し、季節性の調整を行います。
- しきい値のカスタムウィンドウを使えば、予定されているビジネスイベント(ブラックフライデーなど)に備えて事前に調整できます。
- 根本原因分析とインシデント対応の自動化
- AIドリブンのインスタントトラブルシューティングでは、考えられる発生原因と影響を受けるサービスを浮き彫りにし、それを統合ダッシュボードで確認できます。
- エピソードレビューによって、コンテキストを豊富に備えたタイムライン、修復履歴、関連チケットへのリンクが提供されます。
- 電子メール、スクリプト、Splunk SOARを介して自動化します。双方向のチケット連携とカスタムランブックにより、対応をスピードアップします。
- アプリケーションとインフラのトラブルシューティング
- メトリクス、ログ、トレースのテレメトリを3秒以内でリアルタイムに更新します。
- ビジネストランザクション、サービスマップ、Tag Spotlight、Trace Analyzer、コールグラフでワークフローを可視化し、詳細に分析します。
- 統合テレメトリ(REDメトリクス、インフラダッシュボード、サービス統合ビュー)では、関連コンテンツを通じた即時の相互リンク付けも利用できます。
- AIドリブンのインスタントトラブルシューティング
- ログ、メトリクス、トレース、エンティティの健全性に関するガイド付きのワークフローを、ビジネスへの影響度に応じた優先順位とともに利用できます。
- アラートをグループ化した「エピソード」に関してAIがサマリーを生成し、実践的なインサイトと次のステップとともに提示します。
仕組み
- OpenTelemetryおよびSplunkネイティブのコネクタを使用して、クラウド、オンプレミス、サードパーティのソースからメトリクス、ログ、トレースを取り込みます。
- AI/機械学習によりアラートの相関付けとグループ化を行い、ノイズを低減して重大なインシデントを特定します。
- 統合インターフェイスで、考えられる根本原因と影響を受けるサービスを明らかにします。
- コンテキストデータ、過去のエピソード、可視化機能により、エンジニアの調査および修復作業に指針を示します。
- 対応アクションを自動化し、チーム間のコラボレーションをリアルタイムの共有データで促進します。
ユースケースの例
- Kubernetesベースのマイクロサービス環境で、サービス劣化について診断します。
- アプリケーション遅延について、ハイブリッドクラウド導入環境における特定のバックエンド依存関係まで追跡します。
- 失敗したビジネストランザクションについて、ログとトレースを相関付けることにより、分散したワークフローにわたって調査を進めます。
成果
- アラート疲れの軽減とインシデントトリアージの迅速化。
- 重大なインシデントのMTTDおよびMTTRの短縮。
- IT運用チーム、SREチーム、エンジニアリングチームの連携強化。
- ビジネスサービスの信頼性と稼働率の向上。
意義:問題を迅速かつ正確に検出して解決することで、ダウンタイムを最小限に抑え、運用上のオーバーヘッドを削減して、サービスの信頼性と顧客からの信頼を各チームが維持できるようにします。
エッジケースと考慮事項:
ITSIコンテンツパックを使用して、大量のアラートを事前に検出し、未然に防止できます。ハイブリッドのマルチアーキテクチャ(n層、マイクロサービス、COTS)環境に対応しています。Log Observer Connectにより、ログを重複して取り込むことなく、プラットフォームを横断して高度なトラブルシューティングを実施できます。
ユースケース:重要なビジネスプロセスの監視
定義:Splunk Observabilityは、パフォーマンスの問題がビジネスプロセス、KPI、ミッションクリティカルなワークフローに与える影響をチームがリアルタイムで把握できるようにします。
技術概要:SplunkプラットフォームとITSIは、カスタマイズ可能なライブダッシュボード(グラステーブル)を提供します。これによって、IT、アプリケーション、ネットワーク、ビジネスサービスのデータを相関付けることができます。デジタルメトリクスと非デジタルメトリクスの両方を取り込み、幅広いステークホルダーをサポートします。AppDynamicsとコンテンツパックでは、商用アプリケーションやSaaSアプリケーション(SAP、M365など)を迅速に導入して詳細に監視できます。技術的なパフォーマンスをビジネスへの影響に関連付けることもできます。
主要な機能
- ビジネスサービスの統合的な可視化
- グラステーブルでは、組織内外のネットワークとさまざまなアーキテクチャ全体にわたり、資産、KPI、ビジネスエンティティの健全性をリアルタイムで可視化できます。
- サービスアナライザーでは、サービスとインフラの健全性を色分けされたトポロジーで表示できます。
- サービスの健全性分析
- ログ、メトリクス、トレースの相関付けを即座に行い、依存関係と影響をすばやく分析できます。
- KPIやエンティティレベルまでドリルダウンして問題を切り分けます。過去のベースラインとの比較で傾向を明らかにできます。
- COTSおよびSAPアプリケーションの監視
- SAP製品の監視を、AppDynamics (Java/ABAPエージェントによる詳細なコードレベル)およびITSI (PowerConnect for ABAPテレメトリ)を介して行えます。
- SAPやM365などのビジネスアプリケーションで即座に使えるコンテンツパックにより、迅速な導入とメトリクスの標準化を実現します。
- 継続的な改善と報告
- 組み込みの分析機能により、MTTD、MTTR、アラートノイズのベースライン設定や追跡ができます。
- カスタムKPIの進捗を追跡して、ITとビジネス双方のステークホルダー向けレポートの作成に役立てることができます。
- ビジネスパフォーマンス分析ダッシュボードとリリース検証により、技術メトリクスとビジネスメトリクス(コンバージョン、収益など)を結び付け、経営陣による監視を支援します。
- ビジネスプロセスのマッピングとKPIのカスタマイズ
- AppDynamicsのビジネスジャーニーでは、ワークフローをエンドツーエンドでマッピングして、KPIをユーザーエクスペリエンスやビジネス成果と相関付けることができます。
- カスタムメトリクスやトラッキング(ユーザー/店舗ID、顧客セグメントなど)を無制限で利用して、ビジネスへの影響をきめ細かく分析できます。
仕組み
- アプリケーション、インフラ、サードパーティツールから、テレメトリデータとビジネスデータを取り込みます。
- グラステーブル、サービスアナライザー、ビジネスジャーニーを使用して、サービスとビジネスプロセスを関連付けます。
- ITメトリクスをビジネスKPI/SLOに相関付けして、ビジネスの影響を包括的に分析します。
- アラートをリアルタイムで生成し、技術面とビジネス面のステークホルダー双方に役立つ傾向を明らかにします。
- 主なメトリクスのベースライン設定、追跡、レポート作成により、継続的な改善が見込めます。
ユースケースの例
- ITインシデントが収益創出ワークフローに及ぼす影響を監視します。
- SAPでのビジネストランザクションの健全性を追跡し、プロセスの遅延を特定します。
- 基幹事業部門におけるサービスレベルのパフォーマンスをSLA要件に照らして分析します。
成果
- ビジネスに影響するインシデントの特定に要する時間を短縮。
- 運用上および経営上のステークホルダーへの報告体制の強化。
- ITパフォーマンスとビジネス成果の整合性の向上。
意義:ITおよびアプリケーションのパフォーマンスがビジネス成果に与える影響を理解することで、各チームは最重要課題に優先して対応し、収益を守り、スムーズなユーザーエクスペリエンスを確保できます。
エッジケースと考慮事項:
デジタルKPIおよび非デジタルKPI(病院の空き病床数、物理資産の状態など)の両方をサポートします。従来型の3層環境や、最新型のクラウドネイティブやマイクロサービスといった環境と統合できます。SaaSおよびCOTSアプリケーション向けのコンテンツパックにより、迅速に導入し、ベストプラクティスに基づくメトリクスを利用できます。
ユースケース:重要なユーザージャーニーの把握
定義:Splunk Observabilityが提供するエンドツーエンドの可視化は、ユーザーがたどるすべてのステップを、Web/モバイルアプリケーションから、API、ネットワーク、バックエンドサービスまで、エンドツーエンドでカバーします。
技術概要:Splunk Observability CloudとAppDynamicsでは、Real User Monitoring (RUM)、Synthetic Monitoring、Application Performance Monitoring (APM)のほか、ThousandEyesなどのネットワークオブザーバビリティと連携することで、技術的な健全性とビジネスへの影響について相関付けに基づくインサイトを獲得できます。このアプローチにより、各チームはデジタルユーザージャーニーのあらゆる段階を、フロントエンド、バックエンド、外部API、ネットワークパスにわたり、把握、監視、最適化できます。
主要な機能
- デジタルエクスペリエンスの包括的な監視
- RUM、Synthetic Monitoring、APM、ネットワークオブザーバビリティを組み合わせて、ユーザージャーニーを包括的に把握します。
- ブラウザ、モバイルアプリ、API、バックエンド、クラウドインフラからのテレメトリをリアルタイムで取得します。
- ユーザージャーニーのマッピングと可視化
- AppDynamicsのエクスペリエンスジャーニーマップでは、ユーザーフローとフリクションポイントを可視化できます。
- セッションリプレイ、ヒートマップ、パス分析により、ユーザーがスムーズに操作できる箇所と戸惑う箇所を明らかにできます。
- プロアクティブな検出とネットワークパス分析
- Synthetic Monitoringを使えば、世界中のプライベートな場所からユーザージャーニーを24時間365日検証でき、導入前にリグレッションを検出できます。
- ThousandEyes統合により、ホップバイホップのネットワークの健全性(パケットロス、DNS、BGP)をユーザートランザクションに関連付けることができます。
- 根本原因分析
- サンプリングなしの分散トレーシングと機械学習を活用した異常検出により、問題をフルスタックにわたってすばやく特定できます。
- AIが支援する根本原因分析では、問題の発生源がコード、マイクロサービス、CDN、外部イベントなのかを正確に特定できます。
- ビジネス成果の相関付けとコラボレーション
- ダッシュボードでは、技術的な健全性とビジネスKPI (コンバージョン、収益、満足度)を関連付けできます。
- SLO/SLAの追跡と統合的なワークスペースによって、チーム間(ITOps、SRE、NetOps、プロダクト)の共同作業を促進できます。
仕組み
- OpenTelemetry、RUM、APM、外形監視を使用して、すべてのアプリケーション/ネットワーク層からテレメトリを収集します。
- フロントエンド/バックエンドのパフォーマンスを、ユーザーインタラクションやビジネスKPIと相関付けます。
- ダッシュボード、ジャーニーマップ、セッション分析により、ユーザージャーニーとフリクションポイントを可視化します。
- 分散システムおよびネットワークパスにわたってユーザートランザクションを追跡することで、根本原因分析を実現します。
- 主なユーザーセグメントに影響する問題を特定し、優先順位を付けることで、継続的な最適化を支援します。
ユースケースの例
- eコマースプラットフォームでのチェックアウトフローの遅延を、複数のAPIとネットワークホップにわたって診断します。
- SaaSアプリケーションで、ネットワークの遅延やサードパーティAPIの不具合がユーザーエクスペリエンスに与える影響を特定します。
- ワークフローの修正について、高価値をもたらす顧客やトップクラスの顧客に影響する問題を優先します。
成果
- ユーザーに影響する問題の迅速な解決。
- デジタルエクスペリエンスの最適化と顧客満足度の向上。
- 技術的なパフォーマンスをビジネス成果に直接結びつける能力の強化。
意義:ユーザーエクスペリエンスをエンドツーエンドで可視化することで、組織はフリクションポイントを迅速に特定して対応し、デジタルジャーニーを最適化して、顧客の満足度と定着率を向上させることができます。
エッジケースと考慮事項:
トラブルシューティングは、ハイブリッド/パブリッククラウド環境でも、さまざまなサードパーティAPIを介しても実行できます。組み込みのネットワーク可視化機能により、ユーザー境界外の根本原因を切り分けます。デジタルおよび物理的なタッチポイントの両方にわたり分散化の進んだ複雑なユーザージャーニーに対応しています。
定義:Splunk Observabilityは、ハイブリッド環境とクラウドネイティブ環境の全体にわたり、アプリケーションとインフラの信頼性、リソース効率、ユーザーエクスペリエンスを積極的に向上させます。
技術概要:Splunkが提供するオブザーバビリティと最適化は、従来型(n層、COTS)環境とクラウドネイティブ(マイクロサービス、コンテナ)環境の両方に対応しています。Splunkは、AlwaysOn Profiling、リアルタイムのインフラ監視、SLOに基づいたアラート、予測分析を組み合わせることで、継続的なパフォーマンス最適化とコスト管理を実現します。
主要な機能
- 継続的なプロファイリング(AlwaysOn Profiling)
- 本番環境における関数/行ごとのCPUとメモリの使用量をキャプチャし、ボトルネックやメモリリークを特定します。
- インフラの最適化
- サーバー、コンテナ、クラウドリソースのCPU、メモリ、ストレージ、ネットワークの使用状況を監視します。
- リソースのプロビジョニングの過不足を指摘し、インフラメトリクスとアプリケーションパフォーマンスとの相関付けを行い、適切な規模になるよう調整します。
- SLOに基づいたパフォーマンス監視
- サービスレベル目標(SLO)を定義して追跡し、バーンレート分析を用いてサービスの劣化を予測および防止します。
- 外形監視
- 世界各地の拠点の可用性とパフォーマンスを継続的にテストし、ユーザーに影響が及ぶ前に問題を検出します。
- コストがAPIテスト1万件あたり1ドルと費用対効果に優れており、企業利用での拡張性を備えています。
- 機械学習による分析(AppDynamicsおよびITSI)
- 動的しきい値と予測分析により、パフォーマンスの低下を予測して防ぎます。
- 誤検出を減らすとともに、異常を早期に可視化して、発生前の修復対応を可能にします。
仕組み
- AlwaysOn Profilingとインフラのリアルタイム監視を用いて、アプリケーションのコードとインフラリソースの使用状況を継続的にプロファイリングします。
- 機械学習による分析を使用して、ベースラインと動的しきい値を設定します。
- SLOの監視を行い、信頼性の目標やパフォーマンスのベースラインからの逸脱をアラートします。
- 外形監視データとリアルユーザーテストデータを統合し、エンドツーエンドで検証します。
- ワークロードのサイズの適正化とアプリケーションの最適化に向けた実践的な推奨事項を提示します。
ユースケースの例
- Javaマイクロサービスでのメモリリークを検出して解決します。
- クラウドリソースの割り当てを最適化し、インフラ支出を削減します。
- 注目度の高い製品のリリース前にパフォーマンスの低下を予測し、防止します。
成果
- アプリケーションとインフラの効率向上。
- 運用コストの削減と拡張性の強化。
- 安定した高パフォーマンスによるユーザーエクスペリエンスの向上。
意義:パフォーマンスのプロアクティブな調整とリソース最適化により、コストを削減し、システム停止を防ぎ、ユーザーと顧客に一貫して高品質なエクスペリエンスを確保します。
エッジケースと考慮事項:
ハイブリッドのアプリケーションスタック(n層、COTS、マイクロサービス)に対応しています。OpenTelemetryネイティブなので、ベンダーロックインも独自のエージェントも回避できます。レガシー環境とクラウドネイティブ環境の両方に対応した拡張性を備えています。
ユースケース:オブザーバビリティコストの最適化
定義:Splunk Observabilityは、テレメトリの量と支出を効率的に管理するツールを提供します。オープンスタンダードをサポートし、予測可能で柔軟な価格体系を提供しています。
技術概要:Splunkのプラットフォームと柔軟な価格モデルは、組織での大規模なデータ管理、ベンダーロックインの回避、オブザーバビリティの価値の最適化を支援します。高度なデータ管理、パイプライン制御、コスト最適化ツールを使って、テレメトリの収集、保存、支出をきめ細かに監視できます。
主要な機能
- OpenTelemetryネイティブのデータの取り込み:SDK、API、ツールを介して一元化されたデータ収集ができます。独自のエージェントが不要になるとともに、複数の用途に使うテレメトリの取り込みも1回で済みます。
- メトリクスパイプライン管理:不要なメトリクスを集約、フィルタリング、アーカイブ、削除します。パイプラインの自動化によって、使われていないメトリクスや低価値のメトリクスを特定し、アーカイブします。アーカイブされたメトリクスは、コストが10分の1以下になります。
- 高カーディナリティ制御:チームやサービスごとにトークンを制限します。分析機能によって高ボリュームのトークンを特定し、メトリクスのストレージや使用状況を最適化します。
- ヒストグラムメトリクス:大量のメトリクスを圧縮し、効率的な傾向分析のための詳細かつ実践的なインサイトに変換します。
- データのルーティング、フィルタリング、変換:Ingest ProcessorとEdge Processorを使い、取り込み時およびネットワークエッジにおいて、SPL2ベースのフィルタリング、マスキング、エンリッチメント、ルーティングを実行します。
- 保持と統合サーチ:保持に関して、きめ細かな制御ができます。統合サーチでは、一元的に集約することなく、複数のSplunk環境にわたってサーチが行えます。
- コスト監視および最適化ツール:AWS EC2 Cost Optimizer、ダッシュボード、および課金しきい値に関するアラートが組み込まれています。
- 予測可能で透明性のある価格体系:柔軟なモデル(ホスト、ワークロード、取り込み、エンティティ、アクティビティごと)により、高額な超過料金が発生しません。
仕組み
- OpenTelemetryおよびSplunkネイティブのデータ管理ツールを使用して、テレメトリを取り込み、処理し、ルーティングします。
- パイプライン自動化を適用し、メトリクスとログを使用状況と価値に基づいて集約、フィルタリング、アーカイブします。
- ダッシュボード、アラート、組み込みのコスト分析ツールを通じて、コストの監視と最適化を行います。
- ストレージ、保持、ポリシー準拠に関する可視化とガバナンスを提供します。
- クラウド環境とオンプレミス環境のいずれとも統合でき、オブザーバビリティのコストを包括的かつ拡張性のあるかたちで管理できます。
ユースケースの例
- 取り込みパイプラインから低価値のメトリクスをフィルタリングして、監視コストを削減します。
- 規制ポリシーおよびビジネスポリシーへの準拠のために、テレメトリの量と保持期間を管理します。
- AWS EC2リソースの監視を最適化し、料金の超過を防いでクラウドのコストを管理します。
成果
- オブザーバビリティコストの削減と予測可能性の向上。
- 拡張性を保ちつつ重要なインサイトを失うこともないデータ管理。
- テレメトリの収集、保持、課金に関する管理の強化。
意義:テレメトリの量と支出を効率的に管理することで、組織はコストをコントロールしながらオブザーバビリティを拡張し、ROIを最大化し、高額な超過料金を回避できます。
エッジケースと考慮事項:
ショーバックやチャージバックをサポートし、チーム間やサービス間でコストをきめ細かく配分できます。Log Observer Connectにより、ログをシームレスに統合します。カーディナリティが高くテレメトリの増加が変動する環境を念頭に設計されています。
ユースケース:アプリケーションセキュリティの脆弱性の検出と優先順位付け
定義:Splunk Observabilityは、アプリケーションコード内の脆弱性や攻撃を検出し、実際のリスクとビジネスへの影響に基づいて対応に優先順位を付けます。
技術概要:Splunk Secure Applicationによって、アプリケーションのセキュリティをオブザーバビリティと統合します。これにより、脆弱性の検出、保護、リスクに基づいた優先順位付けをリアルタイムで実施できるようになります。Splunkで既存のAPMエージェントとコンテキスト分析を活用することにより、各チームは運用オーバーヘッドを最小限に抑えながら、セキュリティ脅威の検出、優先順位付け、修復を実行できます。
主要な機能
- 統合ランタイムセキュリティ
- 既存のAPM/オブザーバビリティエージェントを活用して、コードスキャンとエクスプロイトに対するランタイム保護を継続的に適用します。
- オブザーバビリティワークフロー内で、脅威を直接検出し緩和できます。
- コンテキストに基づくリスク分析
- ビジネスへの影響(たとえば、重要な決済フローなのかテスト環境か)に基づき、リスクに自動でスコアを付けます。
- AI/機械学習ドリブンの優先順位付けにより、影響が大きくすぐに対応可能な脆弱性を明らかにして、アラート疲れを最小限に抑えます。
- 自動検出とブロック
- 進化する脅威に対し、リアルタイムの防御を個々のコード行レベルにまで適用します。
- セキュリティリスクに関する即時フィードバックを、ユーザーエクスペリエンスやビジネスKPIと相関付けて提供します。
- インシデント対応での連携
- ITOps、エンジニアリング、SecOpsチーム間でダッシュボードとインシデントビューを共有して利用できます。
- Splunk SIEMおよびSOARとの緊密な統合により、対応の調整、エスカレーション、ワークフローの追跡が可能になります。
仕組み
- 既存のAPMエージェントを使用して、アプリケーションコード、インフラ、ビジネスワークフローからテレメトリとセキュリティデータを取り込みます。
- 統合された脅威インテリジェンスと高度な分析を用いて、継続的に脆弱性をスキャンし、ランタイム動作を監視します。
- セキュリティアラートをアプリケーションコンテキストやビジネスへの影響と相関付けして、最も重要な問題に優先順位を付けます。
- SIEM/SOAR統合を通じて修復アクションを自動化し、インシデントをセキュリティチームにエスカレーションします。
- 絶え間ない監視と分析による継続的な改善を支援します。
ユースケースの例
- 本番環境のアプリケーションに対するSQLインジェクション攻撃を検出して阻止します。
- 支払いフローなど高価値のビジネスプロセスでの脆弱性を優先して対処します。
- セキュリティイベントのエスカレーションと、ITチームとセキュリティチーム間での対応の調整を自動化します。
成果
- 脆弱性の検出の迅速化と平均修復時間(MTTR)の短縮。
- データ侵害およびコンプライアンス違反によるリスクの低減。
- アプリケーションの強固な防御に向けた、セキュリティおよび運用チーム間の連携の強化。
意義:リスクベースの継続的なアプリケーションセキュリティにより、侵害リスクを低減し、修復を加速し、事業運営と顧客データを保護できます。
エッジケースと考慮事項:
アプリ内および外部攻撃ベクトルのいずれにも対応しています。運用オーバーヘッドを最小限に抑える設計です(既存のオブザーバビリティエージェントを活用することでツールの乱立を防ぎます)。ハイブリッドおよびクラウドネイティブのアーキテクチャに拡張して適用できます。
ユースケース:ネットワークドメインの相関付け
定義:Splunk ObservabilityとIT Service Intelligence (ITSI)は、ThousandEyes、Catalyst Center、Merakiほかあらゆるネットワークドメインにわたり包括的な可視化を行い、アラートノイズを削減することで、ネットワークサービスの健全性を確保します。
技術概要:Splunk Observabilityでは、ITチーム、ネットワークチーム、アプリケーションチーム間で1つの統合プラットフォームを利用することによりサイロを解消できます。このプラットフォームでは、組織内外のネットワーク、インフラ、ビジネスアプリケーションからの健全性およびパフォーマンスに関するデータを1カ所で監視し、相関付けることができます。また、ITSIのイベント分析およびコンテンツパックには、シスコおよびサードパーティソース向けのすぐに使える統合機能が含まれています。これにより、迅速な導入、クロスドメインアラートの強化、高度な分析が可能になり、チームがネットワークとサービスの健全性をリアルタイムで包括的に把握できるようになります。
主要な機能
- ネットワークとサービスの統合的な可視化
- あらゆるドメインからのテレメトリ(メトリクス、ログ、イベント、トレース)を1カ所に集約して相関付けを行います。ドメインは組織内外のネットワーク、インフラ、アプリケーションを問いません。
- カスタムダッシュボードとグラステーブルでは、技術面とビジネス面の両方のステークホルダー向けに、資産、KPI、基幹サービスの健全性を可視化できます。
- クロスドメインでのアラートの相関付けとノイズ低減
- 異なるドメイン(シスコ、Meraki、ThousandEyes、サードパーティ)からの関連アラートをグループ化することで、ノイズを減らし、重要な問題に優先順位を付けます。
- イベントにビジネスコンテキストを付与し、インシデントへの優先順位付けを自動化して、トリアージを加速します。
- エンドツーエンドのトラブルシューティングとコンテキストに基づくインサイト
- 相関付けがなされた証拠に基づいて根本原因と影響を受けたドメインをすばやく切り分け、MTTDとMTTRを短縮します。
- 技術的なパフォーマンスをビジネスKPIや成果と関連付けることで、経営層に役立つレベルのリアルタイムビューを作成します。
- あらゆるデータに対応する柔軟なオンボーディング
- SplunkBaseのコンテンツパックを利用して、Splunkおよび外部ツールからのネットワーク、インフラ、アプリケーションのデータを簡単に統合します。
仕組み
- ITSIおよびSplunk統合を介して、組織内外のネットワーク、インフラ、アプリケーションからテレメトリを取り込み、正規化します。
- アラートとイベントをあらゆるドメインにわたり相関付けてグループ化し、ビジネスおよび技術的なコンテキストによって強化します。
- 技術チームとビジネスステークホルダーの双方に向けた統合ダッシュボードを生成し、サービスとネットワークの健全性をリアルタイムで表示します。
- 各チームがドメインを切り分け、根本原因を特定し、修復を自動化またはエスカレーションするよう支援します。
- アラート疲れの軽減度、MTTDとMTTRの改善度合い、ビジネスKPIへの影響を追跡して、継続的な改善をサポートします。
ユースケースの例
- ネットワークおよびアプリケーションからの重複するアラートを対応可能な1つのインシデントにグループ化することで、アラート疲れを軽減します。
- 経営層に役立つレベルのリアルタイムダッシュボードを利用し、規制や運用上のKPI(救急車の稼働率、待ち時間など)を監視します。
- サービスの健全性と影響に関する包括的なビューを全員に提供することにより、ネットワークチーム、アプリケーションチーム、インフラチーム間の分断を解消します。
成果
- デジタルスタック全体にわたるインシデントの迅速な検出と解決。
- 運用オーバーヘッドとアラート疲れの軽減。
- 技術的な兆候だけでなく、ビジネスへの影響にも基づく明確な優先順位付け。
意義:クロスドメインの包括的な可視性とアラートの相関付けによって、ダウンタイムを最小限に抑え、トラブルシューティングを加速して、ITチームとビジネスチームがレジリエンスの高いデジタルサービスの実現に集中できるようにします。
エッジケースと考慮事項:
規制の厳しい環境や重要な環境向けに、デジタルおよび非デジタル両方のKPIをサポートします。データソースに依存せず、レガシーおよび最新のネットワークインフラと容易に統合できます。Splunkbaseコンテンツパックとコネクタにより、迅速に導入し、拡張できます。
ユースケース:ネットワークがアプリケーションのパフォーマンスに与える影響を特定
定義:Splunk ObservabilityとThousandEyesは、組織内外のネットワーク間の依存関係をリアルタイムで相関付けることにより、アプリケーションのパフォーマンス問題のトラブルシューティングを支援します。
技術概要:ThousandEyesをSplunk Observability CloudおよびAppDynamicsと統合することで、組織はITOpsチーム、エンジニアリングチーム、NetOpsチーム間のサイロを解消できます。アプリケーション、インフラ、およびすべてのネットワークホップ(内部およびサードパーティ)からの統合テレメトリによって、根本原因がコード、インフラ、ネットワークのいずれにあるかを正確に特定できます。共有ダッシュボード、エンドツーエンドの相関付け、継続的なベンチマークにより、各チームは問題解決を加速し、デジタルエクスペリエンスを最適化できます。
主要な機能
- エンドツーエンドの包括的な可視性
- アプリケーション、インフラ、ネットワークのテレメトリをリアルタイムで相関付けます。サードパーティのISPやクラウドプロバイダーも対象です。
- すべてのチームが共有ダッシュボードで証拠を確認でき、推測に基づく作業や調査のサイロ化を回避できます。
- チーム間の連携とインシデント解決
- 統合コンテキストを提供することによって、根本原因分析に携わるNetOps、ITOps、エンジニアリングチーム間のスムーズな連携を促します。
- ThousandEyesとの双方向統合により、ネットワークパスの高精度分析やパフォーマンスのベンチマークが行えます。
- プロアクティブな監視とベンチマーク
- 継続的な監視により、すべてのネットワークドメインにわたりパフォーマンスの低下を検出し、傾向を追跡します。
- ベンダーの説明責任を明確にして、サービスレベルをプロアクティブに管理できるようにします。
- トラブルシューティングの加速とMTTIの短縮
- 問題の根本原因がコード、インフラ、外部ネットワークのいずれなのかを迅速に切り分けます。
- 不要なエスカレーションを減らし、平均潔白証明時間(MTTI)を短縮します。
仕組み
- ThousandEyesをSplunk ObservabilityおよびAppDynamicsと双方向に統合します。
- アプリケーション、インフラ、および組織内外のすべてのネットワークドメインからリアルタイムのテレメトリを収集し、相関付けを行います。
- 統合ダッシュボードとアラートを生成し、すべてのチームが協力して問題を調査できるようにします。
- ネットワークパスの分析と継続的なベンチマークを通じて、問題を正確に特定し、パートナーの責任を明確にします。
- プロアクティブに最適化を行い、デジタルでのスムーズなユーザーエクスペリエンスを実現します。
ユースケースの例
- マルチドメインのトラブルシューティングにおいて、根本原因がネットワークにないことを即座に実証して、MTTIを短縮します。
- ネットワークのパフォーマンスをベンチマークし、障害を予測するとともに、サードパーティパートナーとのSLAが確実に履行されるようにします。
- SaaSトランザクションの遅延の原因が、コード変更、内部インフラ、外部ISP障害のいずれなのかを特定します。
成果
- アプリケーション、インフラ、ネットワークドメインにわたるインシデント解決の時間短縮と精度向上。
- MTTIの短縮と不要なエスカレーションの削減。
- デジタルエクスペリエンスと事業継続性の強化。
意義:デジタルデリバリーチェーン全体にわたる統合的な可視化により、死角をなくし、根本原因分析を加速して、各チームが信頼性の高い、パフォーマンスの優れたデジタルエクスペリエンスを提供できるようにします。
エッジケースと考慮事項:
クラウド、SaaS、マルチISPアーキテクチャを含むハイブリッド環境に対応しています。ネットワークパフォーマンス管理を、プロアクティブにもリアクティブにも行えます。世界各地に分散した組織や複雑なデジタルデリバリーチェーンを持つ組織にも対応した拡張性を備えています。
ユースケース:AIアプリケーションとインフラの監視
定義:Splunk Observabilityは、AIアプリケーションのスタック全体の健全性、パフォーマンス、セキュリティをリアルタイムで監視します。エージェント、LLM、AIインフラもカバーすることで、信頼性、効率性、ビジネスとの整合性を確保します。
技術概要:ビジネスに不可欠になりつつあるAIおよびLLMワークロードに対し、Splunk Observability for AIが、アプリケーション層とインフラ層の両方を包括的に監視します。Splunkは、OpenTelemetryにネイティブ対応したインストルメンテーション(計装)、リアルタイムダッシュボード、Cisco AI Podsとのシームレスな統合を提供します。これにより、あらゆるフレームワーク、エージェント、環境にわたりリソースの使用状況、モデルの精度、セキュリティ、ビジネスへの影響に関する実用的なインサイトを生成します。統合されたAI Agent MonitoringとAI Defenseにより、品質もコスト効率も高い責任あるAIの実現に向けて、運用およびセキュリティを可視化します。
主要な機能
- AIインフラの健全性およびパフォーマンス監視
- AIインフラ(Cisco AI Pods、GPU、ベクトルデータベースなど)の健全性、可用性、消費状況を監視します。
- データの豊富なダッシュボードでは、ビジネスパフォーマンスを運用メトリクス(使用状況、エラー率、ボトルネック)と相関付けることができます。
- LLMおよびエージェント型アプリケーションの包括的な監視
- LLM/エージェントのワークフロー、トークン使用状況、レイテンシ、エラー、ドリフト、ハルシネーションを追跡し、分析します。
- 専門的な評価により、モデル出力の意味的な品質と技術的なパフォーマンスを監視します。
- 統合セキュリティおよびコンプライアンス
- Cisco AI Defenseにより、プロンプトインジェクションやPHI漏洩、関連するセキュリティ上の脅威を検出し防ぎます。
- AIのセキュリティリスクをインフラやサービスと結び付け、包括的なガバナンスとコンプライアンスを実現します。
- OpenTelemetryネイティブ対応によるベンダーを選ばない統合
- すべてのAIフレームワークに対応した、エージェントなしの柔軟な監視で、ベンダーロックインを回避します。
- Cisco AI Podsやその他の環境で実行されるワークロードの監視をサポートします。
- 継続的な最適化とガバナンス
- ベンチマークを自動化し、SLOをリアルタイムで追跡して、パフォーマンスとリスクを継続的に最適化します。
- ガバナンス機能により、規制および組織の基準に対するコンプライアンスと説明責任を徹底します。
仕組み
- OpenTelemetryとSplunkネイティブの統合機能を使い、AIインフラとLLM/エージェント型アプリケーションのインストルメンテーションを行います。
- メトリクス、イベント、ログ、トレースを収集して、統合ダッシュボードでネットワークおよびセキュリティテレメトリと相関付けます。
- AIリソースの使用状況、パフォーマンス、セキュリティを追跡し、異常に対して実践的なアラートと検出手段を示します。
- 根本原因分析の実施をサポートし、コスト、信頼性、ビジネスへの影響を最適化します。
- 運用メトリクスと精度メトリクスの両方を監視し、組織ポリシーを適用して、コンプライアンスとガバナンスを支援します。
ユースケースの例
- AIのマルチテナントインフラにおいて、推論の失敗やリソースの競合を検出し、トラブルシューティングします。
- LLM搭載アプリケーションでの意味的なドリフト、バイアス、ハルシネーションを監視し、ビジネスの評判を守ります。
- AIワークロードにおいて、PHI漏洩リスクと規制に関するKPIを追跡して、コンプライアンスを徹底します。
成果
- プロアクティブな監視とガバナンスによる、運用リスクと評判リスクの低減。
- AIインフラにおけるリソース使用の最適化とコスト削減。
- AI搭載アプリケーションの信頼性、パフォーマンス、セキュリティの向上。
意義:AIアプリケーションスタックの包括的な統合監視により、組織はコンプライアンス要件に準拠し、信頼性とコスト効率の高いAIをビジネス目標に即したかたちで構築、展開、運用できます。
エッジケースと考慮事項
- クラウドとオンプレミスの両方でのAI導入をサポートします。Cisco AI Podsやサードパーティのインフラにも対応しています。
- 大規模、分散型、マルチフレームワークのAI環境にも対応した拡張性を備えています。
- 専用のAI/LLMエージェント監視プラットフォームと統合して、包括的な監視を実現します。
Splunk Observabilityを各チームで活用する方法:ロールベースの機能とメリット
Splunk Observabilityでは、コア機能に加え、組織内の役割やチームに応じてカスタマイズされたインサイトとメリットを利用でき、各自の運用目標やビジネス目標の達成を促進できます。
IT運用およびサイト信頼性エンジニアリング(SRE)チーム
Splunk Observabilityは、ITOpsチーム、SREチーム、DevOpsチームやビジネスリーダーのニーズに応えて、デジタルサービス全体にわたり統一された可視性とインテリジェンスを提供します。以下のロール別の表は、さまざまなチームがポートフォリオをどのように業務に適用しているかを示しています。