PLATFORM

Splunk Cloud Platformの安定性とレジリエンスで予期せぬ事態に対応

Splunk_Cloud_Platform日の組織にとって最大の懸念事項は、クラウドサービスの安定性とレジリエンスです。パンデミックに起因した需要の急増に対応する場合でも、予期せぬサービス停止に対応する場合でも、自社の顧客をサポートしなければならないことに変わりはありません。Splunk Cloud Platformサービスを利用すれば、安定性とレジリエンスに特化した信頼できるパートナーが、業界全体の大規模なサービス停止、内部セキュリティの脆弱性、またはユーザーエラーによって引き起こされる影響を迅速に調査しトラブルシューティングを行って解決してくれます。

長引くパンデミックによって、急速に進んでいたクラウドへの移行にさらに拍車がかかり、セキュリティ環境の複雑性が増していく中、安定性、レジリエンス、障害復旧を最優先する傾向が続いています。Splunkでは、お客様が将来のインシデントのリスクを軽減できるようにすることに重点的に取り組んでいます。お客様が問題を迅速に調査して解決できるように、SplunkのDNAにはサービスの安定性と信頼性を最優先するという考え方が組み込まれています。

信頼性、可用性、拡張性に優れたSplunk Cloud Platform 

Splunk Cloud Platformは、「常時稼働」の高可用性を提供しており、インフラ管理からデータコンプライアンスまで、そしてGB単位のデータからPBを超えるデータまで、幅広いデータ分析のニーズに適応するように設計されています。データの突発的な増加にも柔軟に対応し、セキュリティバイデザインの原則を維持しながらキャパシティを段階的に拡張できます。お客様ごとにアマゾン ウェブ サービス(AWS)やGCPで利用可能な専用のクラウド環境を提供し、移動中のデータの暗号化はもちろん、オプションで保管中のデータを暗号化することもできます。また、Splunkでは継続的に国際基準を評価し新しい機能を追加しています。

仕組み

Splunk Cloud Platformは、優れたレジリエンス、高可用性、およびディザスタリカバリー機能を提供します。また、問題発生に備えて、問題を可能な限り迅速に解決できるように構築されています。当社の製品チームには、Splunkのお客様の事業継続性を実現するためのイノベーションの力があるのです。 

お客様のための安定性とレジリエンス

お客様は優れた信頼性と高可用性を備えたサービスを求めていますが、Splunkならそれを実現できます。Splunk Cloud Platformは以下を考慮して設計されています。 

1.以下のような複数のキューイング設計によって転送中のデータの信頼性を向上:

  • Victoria ExperienceでSplunkアーキテクチャを再構成し、Splunk Cloud Platformでの取り込み処理とインデックス(永続キュー)を分離
  • フォワーダーキューにより、ソース側でデータを永続的にキューイングし、インデクサーのダウンやネットワークの問題が発生した場合に再試行することでデータ損失を防止

2.保存データの信頼性向上と可用性の追跡を実現:

  • アベイラビリティゾーン(AZ)間でレプリケーションを行い、取り込み時に単一障害点が生じる可能性を減らしてデータ損失を防止 
  • ロードバランサーのインデクサーのランダム化により、多数のインデクサーのうちの1つがダウンした場合でも、大きな影響を与えるデータ損失を回避。Victoria ExperienceでSplunkアーキテクチャが再構成され、ロードバランサーによってインデクサーの過負荷の削減、回復力のあるランダム化の促進、取り込みにおける拡張性の向上を支援
  • 3重のデータレプリケーションで、インデクサー層の冗長性を確保
     

3.サーチの高可用性を実現:

  • インデクサーの自動複製と障害時の交換により、単一障害点の発生を低減
  • サーチヘッドクラスターによる、サーチ層へアクセスをロードバランシング
  • 夜間に設定のバックアップを実行

4.ミッションクリティカルまたはビジネスクリティカルなニーズに対して優先的に可用性を確保:

  • Victoria ExperienceでのSplunkアーキテクチャの再構築の一環として、柔軟で拡張性のあるインデックスが提供され、取り込みやサーチパターンの急増に対して高いレジリエンスを発揮し、優先度が高くビジネスクリティカルなサーチがスキップまたは失敗しないようにサポート 
  • データの高可用性を提供し、サーチのスキップを防ぐためにインデックス時の複製データ保持数を確保
  • プラットフォーム層でのサーチヘッドのクラスタリングにより、サーチヘッドがダウンした場合でもサーチの可用性を優先
     

Splunkを使用してダウンタイムを事前に防止

問題が発生する前にリアルタイムで検出
Splunk Cloud Platformでは、あらゆる種類のデータをリアルタイムでストリーミング、分析、監視、サーチし、問題を未然に検出して防止します。さらに、Splunkのモバイルアプリや拡張現実(AR)機能を使用すると、いつでもどこからでも対応できます。 

問題の根本原因をすばやく検出
Splunk Cloud Platformにあるすべてのデータソースへのアクセスが統合されているため、データ全体にわたって問題の根本原因を調査し、これまで得られなかったビジネスインサイトを引き出すことができます。 

瞬時に問題を解決
Splunk Cloud Platformを使用すると、限られたリソースから最大限の価値を引き出し、チームの効率を最大化できます。わずか2日間で稼働を開始し、アップグレードの変更管理プロセスにおける遅延を最小限に抑えることもできます。また、準備が整ったらSplunkの導入環境をすばやく拡張でき、数テラバイトの増分キャパシティであれば通常2日以内に利用可能になります。インフラの管理はSplunkが担当します。 

Splunkで活用しているSplunk

言うまでもなく、私たちはSplunkのオペレーショナルエクセレンスを信頼し、問題が発生する前にリアルタイムで検出できるようにSplunkを活用しています。現在は、Splunk Cloud Platform、IT Service Intelligence Cloud、Splunk On-Call、そして統合された社内のコミュニケーションチャネルを使用して、適切なチームがインシデント対応と管理に取り組めるようにしています。Splunkでは、試行錯誤を繰り返してすばやく学習し、データを確認しながら、あらゆることを円滑に進めています。

「SplunkのNOC(ネットワーク運用センター)では現在、Splunk on Splunkを使用してSplunk SaaSのログイン、スケジュールサーチとアドホックサーチ、データの取り込みとインデックスの成功、APIの機能と可用性の追跡、保守、トラブルシューティングを行っています。これらはすべて、Splunkのお客様に可能な限り最高のエクスペリエンスを提供するためです」
Splunk NOC、Brenden Reeves

SplunkでのSplunk Cloud Platformの現在の活用方法をいくつかご紹介します。

  • 有効なSplunk SaaSログインの包括的な追跡:Splunkを使用してSplunk Cloud Platformのログインと認証の成功率を監視し、問題が発生した場合に調査を行います。たとえば、通常とは異なる地域からのログインや複数回の失敗に対するアラートなどです。
  • スケジュールサーチやアドホックサーチの監視:Splunkを使用してサーチの成功率を監視し、失敗の回数を設定したしきい値を超えた場合は詳細な調査を行います。さまざまなサービスレベル指標(SLI)がしきい値を下回っていないかどうか、積極的かつ予防的に監視します。
  • データの取り込みとインデックス作成の監視:インデクサーを監視して、お客様が望む状態にあるかどうかを追跡します。通常、機械学習を使用して異常な急増をプロアクティブに特定し、不要なアラートでお客様に負担をかけないように、異常なシナリオの場合にのみアラートを発します。Splunkでは、お客様からサポートの依頼があれば、パフォーマンスを詳しく調べて問題を迅速に解決する体制を整えています。
  • APIの可用性と機能の追跡:APIサービスを監視して、APIサービスが利用可能で正常に機能していることを確認します。取り込むインデックス層の可用性(例:HTTPイベントコレクターのソースの取り込みと内部のSplunkからSplunkへの9997ポート)、およびサーチ層の可用性(例:ログインページの可用性、ハイブリッドサーチAPIのクラウドインデクサーのサーチ能力、またはコンピューティングをそれほど必要としないテストサーチによるサーチサービス自体の可用性)を監視します。
     

Splunk NOCでは、これら4つの領域のいずれかに不審なまたは予期せぬアクティビティがないかを監視し、潜在的な問題が発生した場合にはSplunkからプロアクティブにお客様に連絡します。Splunk Dashboard StudioによってNOCチームはこれらのすべてが集約された情報を表示できるため、複数のチームメンバーが潜在的な問題を特定して迅速に伝達できます。

「Splunk NOCのスタック概要ダッシュボードを使用することで、お客様ごとのサーバーとサービスのクラスター全体の概要をすばやく把握できるため、お客様の問題を迅速に特定して解決できます」
Splunk NOC、Brenden Reeves

Splunk_Cloud_Platform_Heroまとめ

障害もセキュリティインシデントも発生してしまうものです。だからこそ、Splunkの機能を使えば不確実な状況でも成功を収めることができます。Splunk Cloud Platformはセキュリティ、インフラ、アプリケーションの観点から、お客様のエコシステム全体の安定性を向上させるために重要な製品です。Splunk社内でも、NOCの基盤としてSplunk Cloud Platformの可用性とレジリエンスを頼りにしています。Splunkは、お客様がビジネスレジリエンスを確保し、将来のリスクを軽減できるようにするための支援に力を注いでいます。SplunkのDNAに組み込まれたイノベーションの精神で、安定性と信頼性に優れたサービスを提供し、お客様が問題を迅速に調査して解決できるよう今後も取り組んでいきます。 

このブログはこちらの英語ブログの翻訳、三船 亜由美によるレビューです。

Garth Fort
Posted by

Garth Fort

Garth Fort is the Senior Vice President and Chief Product Officer for Splunk. With over 25 years of product management experience, Garth is responsible for evolving Splunk’s market-leading product portfolio of software and cloud services. He has a true passion for driving product roadmaps across both established and emerging categories while successfully guiding software teams through high growth and transitions to the cloud. Prior to Splunk, Garth served as a general manager for Amazon Web Services (AWS) and led innovation for customers, independent software vendors and channel partners. He also held several leadership positions with Microsoft over 20 years and oversaw the worldwide ecosystem strategy and execution for its cloud and enterprise division, including Microsoft Azure, Windows Server, SQL Server and a broad portfolio of products for developers and IT professionals. He holds an A.B. from the University of North Carolina at Chapel Hill.

TAGS
Show All Tags
Show Less Tags