IT

トラブルシューティングをITサービスマネジメントのデータで加速する

トラブルシューティングのモダナイゼーション

ITサービスのトラブルシューティングにおいて、如何に必要なデータが一ヶ所に集まっているか、そして利用可能かによって原因究明までの時間が大きく変わってきます。

調査に必要なデータとして、システムから得られる情報には、例えば以下のようなものが考えられます。

  • フロントエンド
  • バックエンドアプリケーション
  • ミドルウェア
  • DBMS
  • OS
  • ハイパーバイザー
  • ストレージ
  • ネットワーク
  • CDN
  • セキュリティ

などなど

他に忘れてはならない重要な情報は、運用上管理される情報です。例えば同時に発生しているインシデント、既知の問題、変更計画、構成管理。つまりITサービスマネジメントで管理されるような情報です。

Splunkはあらゆるテキストデータ、マシンデータを収集し、相関分析が可能です。ITサービスマネジメントのデータも例外ではありません。

これらの情報を組み合わせることで何が可能になるかもう少し深掘りしましょう。

ITサービスマネジメント(ITSM)で管理される情報

ITSMはITサービス管理のためのベストプラクティスです。詳細は以下の弊社の記事に譲るとして、トラブルシューティングの観点で考えていきたいと思います。

参考:ITSMとは?

ITSMを実践する場合、ストラテジーやデザインなど上流の管理もありますが、多くのケースではサービスオペレーション管理、つまりインシデント管理、要求実現、問題管理、変更管理、構成管理が実施されています。これらのプロセスを適切に実施することでITサービス管理にとって必要なデータが蓄積されます。

さて、トラブルが起きるのは多くは何かしらの変更を行った場合である、というのがよくあるパターンかと思います。トラブルシューティングを行う際に、何故問題が起きたかを調査するため、問題発生前に何かしていないか確認するということが多いでしょう。このような情報は変更管理もしくはモノによっては要求実現から得ることができます。

このような情報を一目で確認できれば、切り分けスピードが高まるのではないでしょうか。

例えば「DBに関する変更の後からアプリケーションの遅延が多くなっている」など一目で分かるようになったとしたらどうでしょうか?

ServiceNowからのデータ取得

次にITサービスマネジメントツールからの情報取得方法について見ていきます。具体的には、ServiceNowを例に取ります。

Splunkには多種多様なApp / Add-onが提供されており、その中の一つにSplunk Add-on for ServiceNowというものがあります。

これはServiceNowにインシデント、イベント送信を行える他、ServiceNow上のあらゆるテーブルのレコードをREST API経由で取得することができます。そのため、インシデント、問題、変更、リクエスト、構成管理といったレコードも取得が可能です。

ServiceNowのデータ取込と可視化についてはこちらの記事にも詳細がございますので是非ご参照ください。

参考:Splunk EnterpriseでServiceNowが利用できるようになりました!

ITSMデータも含めた統合監視

ITSMのデータをSplunkに取り込み、また他のシステムから得られるデータも統合することでどうなるか見てみましょう。

データ統合ダッシュボード例

データ統合ダッシュボード例

このように障害が発生しているホストについて、ServiceNowから得られた情報(システム名、同時に発生しているインシデント、変更計画など)、ホスト自身の情報(リソース、プロセス、コマンド履歴、アクセス履歴、各種ログなど)、ホストに関連するコンポーネントの情報(ハイパーバイザーやネットワークなど)を統合的に確認することができます。

更に俯瞰的な状況を確認するにはIT Service Intelligenceというソリューションもあります。

このソリューションではサービスの構成要素(フロントエンド、バックエンド、認証サービス、DB、ホストなど)とその依存関係をツリーで可視化し、ビジネス観点ならびにテクニカル観点で健全性評価することで問題発生個所と影響範囲をピンポイントで探り当てることができます。

IT Service Intelligence

つまり、このソリューションにより問題発生個所を特定し、更に前述のダッシュボードで詳細に原因調査を行うという動線が可能になります。これにより問題に関係のあるチームが即座に調査とアクションに取り掛かることができ、無駄な調査工数の削減であったりMTTR削減といった効果が得られます。

以上のように、ITSMデータも含め、あらゆるデータを統合するSplunkはトラブルシューティングを効率化し、サービスの問題を迅速に解決するための重要なツールとなります。

興味がある方は、是非お問い合わせいただくか、製品ページをご覧ください。

山村 悟史
Posted by

山村 悟史

データに翻弄されることなく価値を引き出すSplunkのData-to-Everythingの思想に共感し2020年Splunk Services Japan合同会社入社。現在は幅広いお客様へSplunkとは?を知って頂くためプリセールス活動として提案、検証、ワークショップなどを実施。
入社前は主にITサービスマネジメントプラットフォーム構築、データセンタ管理などを経験。

TAGS
Show All Tags
Show Less Tags