可用性監視とは、オンプレミスとクラウドのどちらで運用しているかに関係なく、重要なテクノロジーシステムの稼働状況を監視することを指します。ごくシンプルな可用性監視ツールでは、指定されたスケジュールに従ってサービスに対して定期的にポーリングし、応答があることを確認することで、システムの現在の稼働状況が報告されます。高度なツールでは、より複雑なテストを実行して、詳細情報の収集、世界各地からサービスにアクセスできるかどうかの確認、応答速度の測定、エラーの通知、障害の原因究明などを行うこともできます。可用性監視では、リアルタイム性と予測性が重要です。この両方を備えたツールを使えば、問題にすばやく対応して、大きな事態に発展するのを防ぐことができます。
可用性監視は、可用性管理の一部です。可用性管理とは、ITサービスを、計画から、実装、運用、レポート作成まで包括的に監視および管理するためのITプロセスを指します。可用性が低いと、組織全体に大きな影響が及び、多くの場合、収益や利益、顧客満足度、評判の低下といった損害につながります。高い可用性を維持するためのベストプラクティスとしては、組織レベルの障害を引き起こす可能性のある主なリスク源を特定することや、ストレステストの計画を立てて定期的に実行すること、可能な限り作業を自動化することが挙げられます。
この記事では、可用性監視と可用性管理の関係、その両方のプロセスを高品質に保つ方法、可用性監視でよく使われるツールについて説明します。
冗長性、拡張性、ロードバランシング、監視、バックアップを適切に組み合わせて、高い可用性を実現します。
可用性管理は、ITサービス管理(ITSM)、オブザーバビリティ、アプリケーションパフォーマンス監視(APM)など、他のIT領域と密接に関係しています。APMでは、外形監視、サーバー監視、クラウド監視、ネットワーク監視、リアルユーザー監視(RUM)など、さまざまな監視ソリューションが使われます。その中でもRUMは、Webサイトやアプリケーションでエンドユーザー操作のタイミング、エラー、測定データを収集、分析して、ユーザーエクスペリエンスを可視化する点で、可用性監視に新たな視点をもたらします。
可用性管理は、広く使われているITILフレームワークにも含まれます。ITILは、ITサービスを最適化してサービス障害の影響を最小化するための標準プロセスとベストプラクティスを規定するフレームワークです。可用性管理の目的の1つは、可用性監視と同様に、組織が常に最大限の能力を発揮できるようにすることですが、その最終目標は、継続的な改善を促進することにあります。
可用性監視は、テクノロジー製品やサービスが期待どおりに稼働し、動作していることを確認する手段を提供します。今日、ほぼすべての組織でテクノロジーはビジネスの生命線になっています。たとえば、Webサイトの監視について考えてみましょう。AmazonやFacebookなどのホームページがダウンしたら、短時間のうちにさまざまな問題が連鎖的に起こるはずです。障害を知らせるページが表示される場合でも、接続すらできない場合でも、顧客は不満を感じ、収益は事実上ゼロになり、最終的にはユーザーが別のサイトに移行し始めて、組織の評判と経営状態に悪影響を及ぼす可能性があります。
2021年秋、Facebookとその傘下のWhatsAppおよびInstagramで同時に障害が発生し、6時間にわたってアクセスできなくなりました。この間にFacebookのアプリやサービスをまったく利用できなかったユーザーは1400万人以上にのぼります。識者の試算では、このダウンタイムの1分あたりのコストは16万3565ドル、当日の収益損失額は合計で6000万ドルに達しました。
さらに、ダウンタイムの発生時には、迅速に問題を修正してサービスを回復する必要があるため、ITスタッフが総出で対応に当たることになり、それによって生産性低下のコストも生じます。
可用性監視の目的の1つは、重要なテクノロジーサービス(エンドポイントのWebサイトだけでなくすべてのハードウェアとソフトウェア)の稼働状況を期待どおりに保つことで、こうした大規模な損害を回避することです。
可用性監視には、外部テクノロジープロバイダーのサービスレベル契約(SLA)のパフォーマンスを監視するという重要な側面もあります。サービスプロバイダー(インターネットサービスプロバイダー、クラウドテクノロジープロバイダーなど)と利用契約を結ぶ場合、その契約書には通常、プロバイダーが最小限維持すべき可用性が、主に特定期間(1カ月など)の稼働率という形で指定されます。この場合、利用側の組織は稼働時間を監視するなどの方法で、実際の可用性を把握する必要があります。利用側の可用性監視ソリューションで測定した結果、SLAを満たせなかった場合は、返金や利用料の減額を申請できます。
ダウンタイムは顧客離れや大きな収益損失につながることがよくあります。
サービスの可用性監視は、あまり耳慣れない言葉ですが、Webベースサービス、具体的には外部HTTP/HTTPSトラフィックやWebベースAPIの動作を監視することを指します。Webの登場以来、多くの可用性監視ソリューションがカバー範囲や精度を向上させ、今日ではWebサービスにとどまらず、ハードウェアデバイス、ネットワークプロセス、アプリケーション、その他のテクノロジー資産を含む幅広いテクノロジーを監視できるようになりました。Webサービスの監視方法はいくつかあり、Cloud Pingセンサーを使ってTCP Pingの応答時間を監視する方法や、Cloud HTTPセンサーを使ってWebサーバーの読み込み時間を監視する方法などがあります。Webは主要な顧客接点であるため、ほとんどの組織では一般的に、Webサービスの可用性監視を基本プロセスとして行っています。
その名が示すとおり、クラウドの可用性監視では、クラウドベースのリソースを対象に稼働時間やパフォーマンスを測定します。特に、同意したSLAが守られているかどうかを監視するために必須のプロセスです。可用性の監視は、プライベートクラウド、パブリッククラウド、ハイブリッドクラウドなど、運用形態に関係なく重要です。
クラウドの可用性監視ツールでは、さまざまなサービスのテストに重点を置く傾向があります。クラウドサービスではリソースを事実上無制限に使うことができ、通常は標準機能としてリソースを追加できるため、クラウドベースアプリケーションはオンプレミスアプリケーションと比べてテストがしやすい特徴があります。また、多くの場合、クラウドプラットフォームでテスト機能が提供されるため、クラウドアプリケーションのストレステストを実行するために追加のソフトウェアを導入したりテストプロバイダーと契約したりする必要はありません。
広義では、クラウドの可用性監視にはアプリケーション監視だけでなく、仮想マシン、データベース、Webアプリケーション、Webサイト、ストレージなどのクラウドベースリソースの監視も含まれます。これらのサブシステムの多くは通常「アプリケーション」とは呼ばないかもしれませんが、クラウド上で稼働するアプリケーションの可用性を確保するには、必然的に、クラウド環境全体を監視する必要があります。そのため、クラウドの可用性監視ツールの多くで、クラウドインフラを構成する一部の要素だけでなくすべての要素を監視でき、その点で、従来の監視ツールに似ていると言えます。
アプリケーションの可用性監視では、アプリケーション(通常はオンライン環境で稼働するアプリケーション)が適切に動作、応答しているかどうかを監視します。今日、アプリケーションの可用性を確保することの重要性が増しています。Webサイト、WebベースのメールシステムのようなWebページ、またはモバイルアプリのいずれでも、ユーザーが静的なデータソースよりも動的なアプリケーションを操作することが増えており、組織内でも、サーバーで運用されるアプリケーションを利用することが一般的になっているためです。
アプリケーションの可用性は、ネットワーク、サーバー、さらにはWebサイトの可用性と必ずしも一致しない点に注意が必要です。これらのインフラ要素がすべて正常に動作していても、そこで実行されているアプリケーションに障害が発生する可能性があります。たとえば、サーバーだけを監視して、すべてが正常に動作していると考えるのは間違いです。ユーザー側で問題が発生していることを検出し、その根本原因を調査するには、アプリケーションの可用性を直接監視することが必要です。
アプリケーションの可用性監視では、稼働状況を確認するだけでなく、ユーザーエクスペリエンスの品質を測定することも重要です。そのため、監視ツールを選ぶときは、バイナリメトリクスとして稼働時間を測定できるだけでなく、アプリケーションの応答性、遅延、セッションの平均時間、エラーの発生状況を監視できるかどうかも確認することをお勧めします。アプリケーションの可用性監視の最終目標は、問題を軽微なうちに検出して、アプリケーション全体が停止するような大きな事態に発展する前に対応できるようにすることです。
サービスの可用性について最適なインサイトを獲得し、改善につなげるためのベストプラクティスをご紹介します。
可用性監視ツールはさまざまな価格帯で数多く提供され、無料または低コストで利用できるものもたくさんあります。そのため、ツールは気軽に導入できます。一般的には、監視サービスを利用するか、現在利用しているプラットフォームに組み込まれたツールを使用することから始めるのが最善でしょう。たとえば、アマゾン ウェブ サービス(AWS)を利用している場合は、Amazon CloudWatchを使ってAWSワークロードを監視できます。AWSでは、幅広いカスタム運用メトリクスやアラームが無料で提供され、システムの監視をすぐに始めることができます。可用性に関する要件がそれほど厳しくない場合、利用できるシンプルなクラウドベース監視ツールはたくさんあります。特に、主要なクラウドサービスプロバイダーはいずれも、自社のプラットフォーム専用の監視ツールを提供しています。ただし、その精度はさまざまであることは覚えておきましょう。
可用性監視はスモールスタートで導入するのが簡単で効果的です。少数の重要なシステムを対象にツールを設定して監視を始めます。たとえば、自社の主要Webサイト、重要なデータベースまたはファイルサーバー、基幹アプリケーションなどです。最終的には、どのデバイス、アプリケーション、サービスでも同じように監視できるようになります。経験を積めば、監視ツールの最適な使い方、障害発生時の処理の流れ、外形監視のストレステストの設定方法を理解できます。パフォーマンスデータに基づいてプラットフォームの状況を適切に把握できるようになったら、監視対象のシステムの数と種類を増やしていきましょう。
可用性監視は今後も、独立した日常業務プロセスとして残り続けると考えられますが、ITサービス管理(ITSM)やオブザーバビリティ関連のツールが進化し、従来は可用性監視ツールが提供していた一部の機能を取り込み始めるでしょう。近年、一部のスタンドアロン監視ツールは製造中止や非推奨になっています。これは、より包括的で高度なソリューションが求められるようになっているためです。たとえば、AWS CloudWatchは、ほぼすべてのAWSサービスを監視し、機械学習を利用して想定外の動作を検出できる、包括的なオブザーバビリティツールであり、従来の可用性監視の定義を超える機能を提供します。
可用性監視は将来も、ほぼすべての組織の基本プラクティスであり続けます。ミッションクリティカルなインフラやサービスの重要性はさらに増し、その運用で高い可用性を維持できない組織は市場で苦境に立たされる可能性があります。
著名なWebサービスが短時間ダウンしただけでニュースになる今日、可用性の維持は非常に重要な課題です。消費者も企業もさまざまなサービスを通じてテクノロジー製品を日常的に使っており、ひとたびこれらに障害が発生すると、利用者はもちろん、サービスを提供する組織にも悪影響が及びます。今日の顧客は、利用するサービスにほぼ100%の稼働率を期待しています。そのため、顧客離れや収益損失などの損害を回避するには、製品の可用性を高く保つことが不可欠です。
IT/オブザーバビリティに関する予測
驚きに勝るものはありません。すべてを受け止める準備を整えておきましょう。Splunkのエキスパートが予測する、来年の重要なトレンドをご確認ください。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は850を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキスト(把握したい要素) に基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。
日本支社を2012年2月に開設し、東京の丸の内・大手町、大阪および名古屋にオフィスを構えており、すでに多くの日本企業にもご利用いただいています。
© 2005 - 2023 Splunk Inc. 無断複写・転載を禁じます。
© 2005 - 2023 Splunk Inc. 無断複写・転載を禁じます。