データインサイダー

IT監視とは

IT監視は、IT機器がネットワーク上にオンラインであるかどうか、期待されるサービスレベルで動作しているかどうかをアナリストが判断しながら、検出された問題を解決できるように設計されたさまざまな製品で構成されています。IT監視ツールには、基本的なチェックツールから、製品のパフォーマンスを詳しく調べたり、さらには問題が疑われる場合に修復を自動的に実行したりできる高度なツールまで、さまざまな種類があります。

IT監視ツールとWebサーバーを併用すれば、CPU使用率やRAM使用率の傾向を分析し、ハードドライブ容量が不足しているかどうかや過去1年間にシステムがクラッシュした頻度を判断できます。

ネットワーク監視やアプリケーション監視などのIT監視は、IT環境の複雑さに対応するために、2010年以降飛躍的に進化しています。注目すべきは、IT監視ツールでオンプレミスとクラウドベースのシステムの両方を監視できるようになったことです。また、何百もの種類の監視製品や監視ツールが市販されており、それぞれが複雑さやアプローチという点で大きく異なります。そのため、ある企業にとっては最適なIT監視ツールや監視ソフトウェアが、別の企業には適さないということもあります。

IT監視に固有の概念には、IT運用管理(ITOM)、セキュリティ情報/イベント管理(SIEM)、セキュリティのオーケストレーションと自動化によるレスポンス(SOAR)、オペレーショナルインテリジェンス(OI)などの他の分野と大きく重なる部分があります。

この記事では、IT監視の基本的な種類やツールの種類、IT監視が管理やネットワークパフォーマンス、DevOps、自動化と連携してどのように機能するのか、さらには効果的なIT監視戦略の選び方をご紹介します。

IT監視の概要

IT監視の基本的な種類とは

IT監視の基本的な種類には、可用性監視、Webパフォーマンス監視、Webアプリケーション管理やアプリケーションパフォーマンス管理、API管理、リアルユーザー監視、セキュリティ監視、ビジネスアクティビティ監視などがあります。

さまざまな種類のIT監視ツールを網羅した標準的なリストは存在せず、また多くの用語に複数の種類の監視が含まれていることから、この市場を定義する境界が曖昧になっています。ここでは、IT監視を構成する一般的な種類のツールを取り上げます。

  • 可用性監視:可用性監視はシステム監視と呼ばれることも多く、おそらくIT監視ツールとしては最も成熟しています。サーバー管理、インフラストラクチャ監視/管理、ネットワーク監視/管理などのカテゴリが含まれますが、監視対象が何であるかに関わらず、その稼働時間とパフォーマンスに関する情報を提供します。
  • Webパフォーマンス監視:可用性監視のサブセットであるWebパフォーマンス監視は、Webサーバーまたはサービスの可用性を監視するように設計されていますが、さらにシステムの詳細な監視機能も追加されています。これらのツールは、ページの読み込み時間、エラーが発生した場所、さまざまなWeb要素の個々の読み込み時間などの情報を取得でき、WebサイトやWebベースアプリケーションのパフォーマンスを細かく調整できます。
  • アプリケーション管理/アプリケーションパフォーマンス管理(APM):APMツールはWebパフォーマンス監視ツールと似ていますが、顧客向けアプリケーションを念頭に置いて設計されており、アナリストはアプリケーションのパフォーマンスを追跡し、ユーザーに深刻な影響を与える前に問題を発見できます。最新のAPMツールでは、開発者の介入なしでこれらの問題をトラブルシューティングする自動ルーティングを追加できます。
  • API監視:サードパーティの開発者にAPIを提供している企業は、これらのサービスの稼働時間を確保することが重要です。API監視ツールと監視ソフトウェアを使用すれば、APIが正常に動作しているかどうかのインサイトを得て、ダウンタイムを最小限に抑えることができます。
  • リアルユーザー監視(RUM):リアルユーザー監視は、Webサイトまたはアプリケーションとエンドユーザーとの実際のやり取りを記録します。実際の読み込み時間とユーザーの行動を監視することで、シミュレーションではなくユーザーエクスペリエンスの「リアル」な変化に基づいて問題を特定できます。リアルユーザー監視は予測ではなく過去を監視するように設計されているため、アナリストは問題が発生したあとにしか問題を特定できません。
  • セキュリティ監視:セキュリティ監視は非常に特殊な種類のIT監視であり、ネットワークに侵害やその他の異常なアクティビティがないかを監視するように設計されています。セキュリティ監視とはネットワークはもちろんのこと、広範囲に及ぶ大きなカテゴリであり、セキュリティ分析ツールの多数のサブセットを含みます。
  • ビジネスアクティビティ監視(BAM):このタイプの監視ツールは主要な業績指標を時間の経過とともに追跡します。たとえば、これらの指標には小売店の売上、アプリケーションのダウンロード数、資金移動の金額などに関する情報が含まれます。

これらのIT監視ツールはすべてオンプレミスの機器やアプリケーションを監視することができ、クラウドベースのシステムと組み合わせて使用することも、その両方を行うこともできます。

セキュリティIT監視ダッシュボード

セキュリティIT監視はネットワーク内の脅威や疑わしいアクティビティの監視に使用される。

IT監視に使用されるツールの種類

ITインフラストラクチャの監視ツールは、その使用方法に基づいて、監視、分析、エンゲージメントという3つの大きなカテゴリまたはネットワークデバイスに分類できます。

  • 監視ツール:最も基本的な種類のIT監視ツールであり、ハードウェア、ソフトウェア、またはサービスを監視してその運用効果を報告するために使用されます。インフラストラクチャの監視およびIT運用管理(ITOM)ツール、アプリケーションパフォーマンス監視ツール、Webパフォーマンス監視ツールなどのほとんどの可用性監視ツールはこのカテゴリに分類されます。
  • 分析ツール:この種類のIT監視ツールは、ネットワークなどから監視データを取得し、それをさらに分析するために使用されます。このデータを分析することで、問題の発生源を特定し、さらにはそれらの問題が発生している原因を突き止めることもできます。AIOpsシステムなどの高度な分析ツールは、過去の傾向やパターンに基づいて問題が発生しそうな場所を予測することもできます。
  • エンゲージメントツール:IT監視ツールの最終階層であるエンゲージメントツールは、分析ツールと監視ツールの両方で生成された情報に基づいて動作するように設計されています。このツールは、サービスチケットやアラートを適切なアナリストやビジネスマネージャーにインテリジェントに送信するといったシンプルな動作を実行することもあれば、追加のサービスを実行する、問題のあるハードウェアやソフトウェアを再起動する、バックアップを実行するなど、より一般的な動作に使用されこともあります。

IT監視と管理の連携

IT監視ツールは情報を提供し、管理者はその情報に基づいて行動できます。IT監視は管理の一部であり、戦術的な意思決定やビジネス上の意思決定に活用できるパフォーマンス情報を収集して提供します。

IT監視ツールによってもたらされる情報を利用することで、ビジネスマネージャーはITインフラストラクチャが売上や収益に与える影響をさらに深く掘り下げることができます。インフラストラクチャのダウンタイムが0.11%であるとすれば、1週間に11分間システムを利用できないことを意味します。ビジネスが最も活発な時間帯にシステムが11分間支払いを処理できなければ、多額の損失が生じる可能性があります。これを、ダウンタイムを回避するためにサーバーのメモリーカードを交換するコストや、ネットワークをアップグレードするコストと比較して考える必要があります。あるいは、この問題を解決するために対処すべきプロセス上の問題があるかについても検討する必要があります。ダウンタイムが増加している場合、経験豊富なマネージャーなら、より大きな問題が差し迫っていることを推測し、IT監視データを利用して既存のハードウェアを交換またはアップグレードする必要があることを主張できます。

IT監視とDevOpsの監視の連携とは

DevOpsの領域ではIT監視がますます重要な役割を果たすようになっています。その主な理由は、特に開発と運用においてDevOpsが複数のチームでコラボレーションするという概念を軸としているためです。しかし、セキュリティチームやQA/テストチームなどの他の部門がこのコラボレーションに加わることで、企業はますます大きなメリットを見いだせるようになりました。これらのすべてのグループが団結したチームとして連携してはじめて、ソフトウェアやサービス製品のリリースを成功させることができます。

IT監視は本来この概念を補うものであり、特にクラウドベースサービスや企業のAPIに依存するアプリケーションなど、高い可用性を必要とする製品に適しています。これらのサービスのパフォーマンスが低下したり、完全にクラッシュしたりすれば、顧客満足度や、ひいては収益がゼロになる可能性があります。そのため、重要なシステムの運用性と応答性を維持し、これらのパフォーマンス測定を開発プロセスに最初から直接組み込んでおくことがDevOpsチームにとって不可欠です。

DevOpsとIT監視のもう1つの共通部分は、製品の更新ペースが加速している点に関係しており、実際、アプリケーションが1日に何度も更新されることがあります。このような環境では開発のスピードが極めて速く、多くの場合は更新がリリースされる前の品質保証に最小限の時間しか与えられないため、監視は不可欠です。場合によっては、発見されなかったバグが本番環境に持ち込まれてしまい、重要なシステムが許容できないパフォーマンス低下やクラッシュを起こすこともあります。強力なリアルタイムのIT監視ソリューションがあれば、これらのエラーを迅速に(多くの場合数秒以内に)検出でき、DevOpsチームが問題を即座に解決したりコードを更新前の動作状態に戻したりして、ダウンタイムを最小限に抑えることができます。

つまり、DevOpsの世界では、IT監視も将来を予測するものになっています。DevOps監視システムを使用すれば、開発者が自分の仕事に使用しているツールそのものを監視したり、マネージャーが非効率的な領域や自動化の恩恵を受けられる可能性のある領域を特定したりすることができます。

Security monitoring dashboard

DevOpsでは複数チームのコラボレーションが必要であるため、IT監視が重要な要素となる。

IT監視と自動化の連携機能

IT監視は、主にエンゲージメントツールを使用した自動化に関与します。前述のとおり、自動化はサービスチケットの発行やアラートの通知などを自動で実行することもあれば、監視ツールによって検出された問題を人間の介入なしで修復する複雑な一連のアクションを実行することもできます。

インフラストラクチャが複雑になるほど、自動化の必要性も高まります。規模がそれほど大きくない企業でさえ、人間が管理するには多すぎるほどの要素があり、クラウドとオンプレミスを組み合わせたハイブリッドシステムではなおさら複雑になります。

自動化を組み込んだIT監視ツールは、これらのすべてをシンプルにすることができます。顧客のアクティビティが急増したことでサーバーの応答が遅くなった場合、IT監視ツールはこの問題をCPUの過負荷と診断し、別のサーバー(物理または仮想)に処理を引き継ぐように自動で指示できます。その後、ネットワークトラフィックが減少すれば、2台目のサーバーをスピンダウンするという判断ができます。また、このツールにはアップグレードが妥当かどうかを管理者が判断できるよう、インシデントに関する根本原因レポートを作成するという機能もあります。

アナリストはIT監視ツールの機能をどのように利用しているか

IT監視ツールはアナリストによってさまざまな方法で利用されており、厳密にどのように利用すべきかを示す標準的なガイダンスは存在しません。大まかに言うと、アナリストはIT監視ツールの以下のような数多くの重要な機能を実行しています。

  • サーバー、ネットワークハードウェア、クラウドベースシステムなどの物理および仮想インフラストラクチャノードを監視してトラブルシューティングを行い、問題をすばやく解決する。
  • 実行中のアプリケーションをリアルタイムで監視することで、DevOps環境での稼働時間を確保し、開発時間を短縮する。
  • ネットワーク環境のボトルネック、帯域幅の浪費など、潜在的に問題が発生しやすい箇所を簡単に特定できるようにすることで、ITの意思決定プロセスを改善する。
  • クラウドベースシステムの可視性を向上させ、オンプレミスシステムと監視を統合する。
  • 財務面の影響など、IT運用管理(ITOM)がビジネスに与える影響を予測して分析する。
  • インシデント管理を自動化することで、人間による監視の必要性を減らし、問題をすばやく修復し、過剰なアラートを回避する。
  • アプリケーション内でのエンドユーザーの行動を追跡し、改善の機会を特定する。
IT monitoring tools are used in a variety of ways by analysts.

IT監視ツールはアナリストによってさまざまな方法で利用されている。

IT監視ツール導入方法

IT監視戦略の選択方法とは?

独自のIT監視戦略を開始する準備が整ったら、以下の手順に従って導入を開始します。

  1. 目標を決める。1台のサーバーがダウンしたときにアラートが通知されればよいのか、オンプレミスのハードウェアとクラウドサービスが混在するハイブリッド環境を監視する必要があるのか、監視ツールを別のサービスに統合したいのか、特定のパフォーマンスデータを可視化したいのか、機械学習を利用して是正措置を自動化したいのかなど、これらの要件によって検討すべき監視ツールの複雑さが大きく変わります。
  2. ビジネスリーダーを参加させる。ステップ1と併せて、IT組織以外の関係者にもIT監視の目標に賛同してもらう必要があります。関係者のニーズとIT監視のニーズを統合して、目標リストを1つにまとめます。
  3. 必要な主機能を特定する。ほとんどの監視ツールはレポート作成やダッシュボードなどの基本的な機能を備えていますが、その複雑さはさまざまです。データ保持の特殊なニーズがある場合や機械学習によるリアルタイムのインサイトが必要な場合には、これらの機能によってソリューションの方向性が決まります。
  4. 使用できるデータソースを特定する。データソースには、サーバーログ、マシンデータ、サードパーティのデータソースなどさまざまなものがあります。監視しようとしているものが何であれ、それに関連するデータソースが少なくとも1つはあるはずです。検討しているツールが目的の情報をサポートしているかを確認できるよう、これらのソースをすべて列挙します。
  5. ツールを試験的に評価する。これらをすべて備えているからと言って、良さそうに見える最初のIT監視ツールをすぐに導入する必要はありません。これらのツールのほとんどは試用版として利用できるため、実際に導入する前に自社の環境でどの程度うまく機能するかを確認できます。これは、サブスクリプションベースのサービスとして提供されているツールの場合は特に重要です。

IT監視のベストプラクティスとは?

IT監視ツールをどのように使用するかはどのツールを選ぶのかと同じくらい重要です。考慮すべきいくつかの信頼できるベストプラクティスとして、アラートをよく理解すること、アラートのレベルと伝達手段を考慮すること、ダッシュボードを改良すること、エスカレーション計画を策定すること、冗長性を取り入れること、異常値を監視することなどがあります。

  • アラートをよく理解する。アラートが多すぎるとすぐにアラート疲れが生じ、アラートを無視してしまうことになります。人間が本当に関与する必要があるときに通知されるアラートロジックを作成するように注意してください。
  • アラートのレベルを考慮する。基本的なクラッシュや限定的なダウンタイムは未熟なアナリストにルーティングしても問題ありませんが、より深刻な問題はマネージャーにすばやくエスカレーションする必要があります。このような分類とエスカレーションを容易にするために、さまざまな重大度レベルに従って問題を割り当てます。
  • 伝達手段を考慮する。メールアラートを使用できる時間帯、テキストメッセージなどのモバイル通知を使用するべき時間帯を検討します。テキストメッセージが多すぎるとすぐにアラート疲れが生じ、アラートを見逃してしまうということに注意してください。
  • ダッシュボードを改良する。ダッシュボードは、ほとんどのアナリストが業務時間の大部分で使用します。そのため、最も重要な情報をダッシュボードの中心に配置し、二次情報は簡単にアクセスできる場所に配置するようにします。
  • アラートシステムとは別にエスカレーション計画を策定する。お使いのアラートにはすでに基本的なエスカレーションルーチンが適用されているかもしれませんが、一見シンプルに見えるサーバーの問題が、すぐに大きな問題へと発展することもあります。たとえば、IT監視ツールはレベル5のハリケーンがデータセンターに接近していることを知らずに、オフサイトサーバーがオフラインになっていることだけを報告しているかもしれません。これらはまったく異なる次元の問題であり、異なる対応が必要です。
  • 冗長性は効果的である。可能であれば、単一のデータソースだけで特定のノードの健全性を監視することは避けてください。監視ツールがネットワーク上のサーバーログにアクセスできなくなった場合、その原因がサーバーのダウンなのか、ネットワークケーブルの切断なのかは、ネットワークトラフィックを監視する他のデータソースがなければわかりません。補助的なデータソースがあれば、このような問題をより迅速にトラブルシューティングできます。
  • 異常値を監視する。Webページの平均応答時間が0.3秒というのは素晴らしいパフォーマンスですが、ごく一部のユーザーが実際には30秒以上の応答時間を経験しており、それが見過ごされていたとしたら問題です。スマートな監視戦略では、中央値の情報だけでなくすべてのデータを確認する必要があります。また、トラブルシューティングでは、ごく一部のエンドユーザーに問題を引き起こしている可能性のある固有の変数セットへの対応が必要になることもよくあります。

結論

結論:IT監視がビジネスの成否を左右する

IT監視は、サーバーがクラッシュしたときに技術者に通知するだけではありません。これらの問題をあらかじめインテリジェントに予測し、さらにユーザーが実際に影響を受ける前に修復するよう対応を自動化することも重要です。

ITインフラストラクチャが複雑さを増すにつれ、それに対応できるシステムを導入することはITマネージャーにとって不可欠です。IT監視をエコシステム全体に正式に統合することで、シンプルなサービスの可用性からビジネスの高いパフォーマンスや全体的な収益性の確保まで、さまざまな指標に沿って業務を劇的に改善できます。