盲点と推測を排除し、監視ツールの切り替えの手間を省きましょう。Splunk Observability CloudとAI Assistantを使えば、1つのソリューションですべてのメトリクス、ログ、トレースを自動的に相関付けることができます。
重要なポイント
ツールはただ導入すれば済むわけではありません。たとえば、オブザーバビリティツールの立ち上げが完了しており、ダッシュボードは稼働中、アラートも生成されているとします。それにもかかわらず、いまだに手探りで進んでいる気がするのはなぜでしょうか?
チームがノイズに振り回されているうちに、新しいツールが次々と導入されます。そこでインシデントが発生すると、オブザーバビリティが責められます。しかし、これはツールの問題ではありません。プロセス統合の問題なのです。
よく見られるのは、オブザーバビリティをチームにおける計画、リリース、運用という流れの中に組み込むのではなく、問題が生じて初めて取り入れるパターンです。これは間違ったアプローチです。この方法ですと、インシデントが発生すれば、担当者はやはり慌てることになります。経営陣は答えを期待しているのに、言い訳ばかり聞かされます。資産は陳腐化するものです。理想的な可視化として始めたものが、悪い典型例になってしまうのです。
オブザーバビリティはそのようなやり方ではなく、ITプロセスに溶け込ませなければなりません。そのためには、変更管理、インシデント対応、リリース計画の際に、次のような質問を投げかける必要があります。
これらの質問は余分なことではなく、必須の要素です。
オブザーバビリティが後から付け足されただけだったり、変化に適応しなかったりすると、いずれ役に立たなくなります。抑制なしのメンテナンスウィンドウではチームが大量のノイズに翻弄され、信頼は損なわれていきます。本番では、監視範囲はシフトし、サービスは入れ替わり、依存関係も変化します。フィードバックループが存在しないため、死角は拡大し続けます。インシデントが発生して、初めて事の重大さに気付きます。
そうなると、「オブザーバビリティにあれだけの金額をつぎ込んだのに、見逃したのか?」という声が出てきます。これが実際の職場ではどのようになるのか、ご紹介しましょう。
担当チームはそれまで、すべての職務を「適切に」遂行していました。そこに新しい社内ポータルが導入されました。ダッシュボードを立ち上げ、アラートを調整し、ワークフローをテストして、ローンチは順調にいきました。そして、自信が高まりました…あの日に崩れ去るまでは。
1カ月後、全社にわたる割引で、ポータルへのオプトインが必要となりました。始めの頃、登録は順調でした。ところが、最終日に登録が急増したため、バックエンドサービスが詰まってしまいました。そのためポータルがフリーズしました。
外形監視ではこの事態を見逃していました。必要なワークフローが、ローンチの際に用意されていなかったのです。ウォールーム(作戦指令室)のダッシュボードは「正常」を示しています。アラートは発生していませんが、チケットは山積みになっています。その時、人事担当VPから直接、次のようなエスカレーションが届きました。「事態を報告しているのがアソシエイト社員というのは、どういうことですか?」
もっともな質問です。回答は悲惨なものでした。事後分析で明らかになったのは、「オブザーバビリティに失敗したのではなく、一度も更新されていなかった。ビジネスは進化したが、監視範囲が適応していなかった」ということです。
オブザーバビリティが傍観者になってはいけません。組織が思考し、構築し、運用していくプロセスに根本から組み込む必要があります。では、どうすれば実現できるでしょうか。どこから手を付ければよいでしょうか。
ご安心ください。オブザーバビリティを活用でき、かつ活用すべき領域として上位のものを以下にご紹介します。

変更管理、インシデント管理、問題管理は、IT運用の基盤です。オブザーバビリティも同じく、根本から組み込まれているべきです。オブザーバビリティをサービス管理全体に深く組み込めば、優れた説明責任、コンテキスト、対応品質を実現できます。そうしたオブザーバビリティなら、ダッシュボードとアラートを実用的なインサイトに変換して、価値あるIT運用に活かせます。
統合戦術:
なぜ重要か:上記の統合によって、過剰なアラートが削減され、人が報告したデータとシステムメトリクスが相関付けられて、オブザーバビリティから提供されたシグナルに対する信頼が高まります。
ヒント:システムの動作を実際のユーザーへの影響と結び付けたいなら、サービスデスクデータをオブザーバビリティプラットフォームに取り込んでください。
このサービスデスクデータ(問い合わせ件数の急伸、インシデントの急増、チケットの分類)があれば、問題を早期に検出し、アラートが効果的に発動しているかどうかを検証し、人が報告したシグナルで裏付けしてビジネス影響分析を強化できます。
Splunk ITSIのようなソリューションでは、このデータを簡単にオブザーバビリティワークフローに取り込んだり、テレメトリと相関付けたりできます。
オブザーバビリティをリリースの一環として組み込みます。新しいコードをリリースする際には必ず、該当する機能を可視化できるようにします。オブザーバビリティにも、CI/CDパイプラインの他の部分と同レベルの厳密さ、速度、自動化が必要です。
統合戦術:
なぜ重要か:CI/CDパイプラインに統合すると、オブザーバビリティの精度の低下を防止できます。また、すべてのサービスがすべての環境で確実に可視化され、追跡もアラート送信もできるようになります。
初めからオブザーバビリティを前提として設計します。なぜなら、オブザーバビリティに関する初期の判断によって長期的な成功が左右されるためです。設計のレビューには、テレメトリ、タグ付け、アラートの準備の要件を組み入れます。すべてを稼働開始前に行うべきです。
統合戦術:
なぜ重要か:オブザーバビリティに対応した設計によって、後から追加して繕うことをなくし、チームが初日から目標を明確に理解してインサイトを取得しやすくなります。
買う前にしっかり検討します。やみくもに統合してはいけません。性急な購買や取得によって、ツールの乱立、テレメトリの欠落、ベンダーロックインが生じることがよくあります。可視性を維持しながら自信を持って規模を拡大するために、評価とオンボーディング両方のプロセスにオブザーバビリティを組み込みます。
統合戦術:
なぜ重要か:ツールの乱立を減らし、テレメトリを標準化し、すべてのプラットフォームがオブザーバビリティの目標を確実にサポートするようにできます。
オブザーバビリティをツール管理者に任せきりにしてはなりません。オブザーバビリティの成功は、プラットフォームだけでなくそれに関わる人にもかかっています。当事者意識、活用支援、継続的な関与がなければ、どんなに優れたツールであっても「宝の持ち腐れ」になってしまいます。オンボーディングからパフォーマンスレビューにいたるまで、可視性は社内の共有責任とみなす必要があります。
統合戦術:
なぜ重要か:これにより、オブザーバビリティの文化を構築し、プラットフォーム担当チーム以外にも当事者意識を拡大できます。
本番環境で問題が起きるまで待っていてはなりません。本番前に、現実世界と同様の複雑な環境で最終リハーサルを行います。本番前のテスト環境では、パフォーマンステスト、QA、カオステストを実施します。この環境は、コードが顧客に影響を及ぼす前に早い段階でリスクを炙り出し、オブザーバビリティの監視範囲を検証するのに最適な場です。
ところが、これらの環境の監視が不十分なために、機会を逃したり、土壇場で不測の事態が発生することが珍しくありません。
統合戦術:
なぜ重要か:本番前環境でテストを予防的に実施し、不備や不足を早期に明らかにすることで、インシデントの影響を軽減し、信頼を高めることができます。
ヒント:オブザーバビリティのCoEがプロジェクトを先導するようにします。オブザーバビリティCoEは、部門を横断して成功を実現するための運用モデルです。その目的は以下のとおりです。
ツールの導入は始まりにすぎません。変化を定着させるには、社員とプロセスをともに適合させていく必要があります。これによって、ツールが宝の持ち腐れになるか、戦略的な効果を生みだすかが決まります。
ここまでお読みいただいていれば、オブザーバビリティは傍観者では済まないことは明らかなはずです。オブザーバビリティは、後から付け足すものではありません。計画、構築、対応のプロセスに根本から組み込まなければならないのです。継ぎ目を詳しく調べましょう。オブザーバビリティを、反応する箇所だけでなく、効果のある箇所に埋め込んでください。
次のインシデントで不備や不足が明らかになるのを待っていてはなりません。オブザーバビリティをプロアクティブに活用しましょう。
実際にお試しいただくこともできます。Splunk Observability Cloudの14日間無料トライアルを、今すぐ簡単に始めましょう!
デプロイ後にツールの層を適用するだけではなく、変更管理、リリース計画、アーキテクチャのレビュー、トレーニングのような標準のプロセスにオブザーバビリティの作業とテレメトリ計画を組み込むということです。
プロセスを統合しないと、オブザーバビリティの範囲がずれたり、古くなったり、ビジネスに不可欠なワークフローを見逃したりすることがあり、インシデント発生時や導入時に死角が生じる原因になります。
たとえば、変更テンプレートをテレメトリニーズに適合させる、ダッシュボードをCI/CDパイプラインに組み込む、設計レビュー時にオブザーバビリティの準備が完了しているかを検証する、ITSMデータを取り込んでシグナルコンテキストを改善する、などがあります。
本番環境とほぼ同様の本番前環境を監視する、テスト実施時にアラートやダッシュボードを検証する、本番への移行前にオブザーバビリティの審査承認を求める、などといったかたちで適用します。
まず、オブザーバビリティを1つのワークフロー(たとえば、変更管理)に組み込むことから始めます。オブザーバビリティCoEを通じて当事者意識を確立し、Observability as Code (OaC)によって一貫性を保ちながら各チームを横断して拡大します。