パート1では、ネットワークの可視性とITサービスのコンテキストを関連付けることで、スピーディーかつスマートなインシデント対応が可能になる理由を説明しました。では、具体的にはどのような形になるのでしょうか。パート2では、従来の監視アプローチが抱える課題を深く掘り下げ、断片的なアラートから統合されたインサイトへと移行する必要性について説明します。統合されたインサイトによって、IT運用チームとネットワーク運用チームの両方が問題の「詳細」と「原因」を把握できるようになれば、適切な対応を直感的に行えるようになります。
現代の戦略のあるべき姿とは
1. イベントインテリジェンスによるアシュアランス管理
多くのオブザーバビリティベンダーは、ネットワーク可視化機能を後付けで追加しようとしてきました。しかし、これではせいぜい表面的なインサイトが提供されるに過ぎません。現代のインシデント対応では、pingテストのような簡易的な確認だけでは不十分です。ネットワークの「言語」を理解し、それを自在に扱えるツールが必要です。その第一歩は、スマートなアラート管理から始まります。時間やキーワードでアラートをグループ化するだけでなく、AIを活用してシステム間の関係性を理解することが求められます。具体的には、次のことが重要です。
- ネットワークインテリジェンスと連携するオブザーバビリティプラットフォームには、アプリケーションの変更とネットワークパフォーマンスの低下を関連付け、その影響を把握できる機能が必要です。
- 高いパフォーマンスを発揮しているITチームは、コストのかかる緊急対応を回避するため、チーム間での情報共有と自動化を重視しています。ネイティブなインサイトに重点を置くことで、共有データ、コンテキスト、KPIに基づいた、より迅速で効率的な根本原因分析とコラボレーションを促進できます。
- インシデント対応戦略を補完する最適な方法を評価する際は、AIと機械学習を活用した受信シグナルの分類、データエンリッチメント、重複排除、および優先順位付けが可能なイベント管理ソリューションを検討してください。
適切なツールがあれば、混沌としたアラートの山を、優先順位付けされた、明確で信頼できるインシデントフィードに変えることができます。これにより、チームはより多くのコンテキストに基づいて行動し、問題をエスカレーションして修復を自動化し、他のデータから実用的な価値を引き出せるようになります。
2. AIドリブンなインシデントの優先順位付け
ノイズが減ると快適に感じられるかもしれませんが、本当に価値をもたらすのは優先順位付けです。プラットフォームの検討にあたっては、次の機能を備えた先進的なプラットフォームに注目してください。
- ノイズをフィルタリングし、インサイトを可視化するとともに、さまざまなアラートを単一の実用的なインシデントにまとめることで、潜在的な問題を検出できる機能。これにより、まず大量のアラートやそれに伴う連鎖的な問題から生じるエスカレーションや一部のボトルネックを軽減できます。
- 高度なテレメトリのグループ化と優先順位付けの機能。これにより、テレメトリと重要なビジネスサービス、プロセス、およびその他の非デジタル業務を相関付けできます。アラートノイズの削減に注力するだけでも困難な中、先進的な組織はすでにこのような取り組みを始めています。
- コンテキストに応じてインシデントを優先順位付けできる機能。これにより、重要なITサービスやビジネスサービスに影響を与えるインシデントへの対応を優先し、影響の小さい異常の優先度を下げることができます。
これらの機能を活用することで、IT部門はサポートキューの管理から脱却し、現代的でインテリジェントな運用体制を実現できます。
3. ネットワークインテリジェンスで外部の依存関係を把握
率直に言って、クラウドやデータセンターの端までしか監視していない状況は、目隠しをしたまま飛んでいるようなものです。現代のインシデント対応では、あらゆる場所を可視化する必要があります。
- 問題が自社の環境内で発生したのか、外部プロバイダー(ISPの障害、CDNの遅延、SaaSの速度低下)に起因するのかを特定するには、自社で所有するネットワークと所有していないネットワークの両方を可視化する必要があります。
- チームは、アプリケーション、インフラ、およびビジネスKPIの健全性を、ネットワークのパフォーマンスと関連付けて一元的に表示できる機能を求めています。これにより、問題をより迅速に、自信を持って特定できるようになります。
- ネットワーク運用チームに、双方向のネットワークインサイト、自動化、および予測分析を提供することで、ネットワーク運用に関わる活動がシステム全体やビジネスに与える影響を可視化できます。これにより、企業はSaaS、クラウド、ISPの障害をユーザーに影響が及ぶ前に検出して修復でき、サードパーティプロバイダーに責任を追及することも可能になります。
このような機能は、単に便利なだけではありません。自社で管理できない要素に依存しているカスタマーエクスペリエンスにおいては、極めて重要な役割を果たします。
4. 予測分析と予防的回避
フォーブスグローバル2000やフォーチュン500にランクインされるトップ企業は、予測分析を導入してインシデント対応とMTTRの向上を図っています。しかし、本当に重要なのは、どれほど先まで予測できるか、そしてどれほど柔軟に予測できるかという点です。今では、秒単位どころではなく、ほぼリアルタイムで変化を予測することが常識となっています。事前に対応するために必要な予測ができない場合や、技術的要素以外も考慮できる柔軟なKPIがない場合、企業はモデルの微調整に膨大な時間を費やすことになります。問題が起きるまで待っているわけにはいきません。
- 過去の傾向分析とAIドリブンな異常検出によって、潜在的な問題を深刻化する前に特定できます。この機能を、多くの先進的な異常検出ソリューションに搭載されている予測分析機能と組み合わせることで、チームは真の意味で守りの体制から攻めの体制に転じることが可能になります。
- エンドツーエンドのパフォーマンスベンチマーキングを利用して、ネットワークの混雑、サービスのボトルネック、インフラの障害が深刻化する前に、積極的に対処できます。
- 予測モデリングを活用することで、サービス中断のリスクを事前に把握して軽減し、顧客への影響を未然に防ぐことができます。
- 高度なユースケースに取り組む革新的なチームは、予測的なインサイトの質をさらに向上させ、インシデント予測だけでなく、リソース割り当てやコスト最適化、さらには将来のコスト削減にも活用しています。
こうした取り組みにより、インシデント対応は単なるダメージコントロールではなく、戦略的な優位性をもたらすものになります。
優位性をもたらすインシデント対応
サービスの劣化に迅速かつ効果的に対応する能力は、稼働時間の維持だけでなく、顧客ロイヤルティの向上につながるデジタルエクスペリエンスの提供にも欠かせません。イベント、サービス、ネットワークのインテリジェンスをビジネスコンテキストと統合することで、技術的なインサイトを獲得できるだけでなく、あらゆる領域で活用できるようになります。この戦略的な優位性によって、高いROIがもたらされるのです。
- 優れたデジタルエクスペリエンスの提供:効率的かつ迅速な根本原因分析を通じて、問題をプロアクティブに検出して不要なコストを回避することで、NPS (ネットプロモータースコア)やCSAT (顧客満足度)のスコアをすぐに向上できます。
- チームの満足度と俊敏性の向上:インシデントの件数とMTTRを削減することで、エンジニアはトラブルシューティングに費やす時間を減らし、イノベーションに集中できる時間を増やすことができます。
- ビジネスとの整合性の確保:技術的なパフォーマンスをビジネス成果やプロセス、ワークフローと結び付けることで、チームや、SLAなどの主要なビジネス目標に関する状況が共有され、投資の評価や正当化も容易になります。
- ベンダーの説明責任の強化:ISP、CDN、SaaSのパフォーマンスに関する実用的なデータに基づいて、パートナー企業の責任を明確化できます(証拠を提示することも可能です)。
こうした優位性により、スマートなインフラ投資が測定可能なビジネス価値へと変わり、IT運用チームやネットワーク運用チームは、裏方作業から経営上の議論に関わる立場へと進化します。もちろん、それがインシデント対応の会議でないことが理想的です。
時代の先を行く
現代のインシデント対応は、単にダッシュボードを改善したり、アラートを迅速化したりするだけでは十分ではありません。重要なのは、推測に頼った対応をなくすことです。今日のデジタルビジネスのニーズに応えるには、インシデント対応を進化させなければなりません。成功の鍵は、ITチーム、DevOpsチーム、ネットワーク運用チーム間のサイロを解消し、サービスとビジネスの健全性について共通認識を持てるようにすることにあります。これが実現すれば、チームは状況を正確に把握できるようになり、インテリジェントな原因分析も効果的に活用できます。
スマートでスピーディー、そしてレジリエンスに優れたデジタルエクスペリエンスを、Splunkとともに作っていきましょう。
オブザーバビリティ関連資料
このブログはこちらの英語ブログの翻訳、山村 悟史によるレビューです。