特に高度分析のITSIの領域については、プロフェッショナルサポートなしではここまでできなかった。もちろん、ITSIだけでなく様々な角度の質問にも真摯に対応いただけており、大変助かっています
社内で進めているDX推進においてインフラ運用の業務効率化や高度化を目指すなか、各種インフラサービスの調査時には個別のログ収集が必要で、状況把握に時間を要していた。インフラサービスの統合的な可視化を目指し、新たなプラットフォームの整備を検討。
自社が進めるベストハイブリッドプラットフォーム環境におけるログレイク基盤として活用していたSplunk Cloud Platformを統合的なデータ分析と監視プラットフォームとして採用。データベースとしてのOracle Exadataの運用管理でSplunk IT Service Intelligence(ITSI)を活用し、将来を予測するための高度な分析ができる環境づくりを実現。
様々な事業領域で培った高度なIT技術と確かな開発・運用能力を活かして、パナソニックグループの国内外の事業をデジタルと人の力で強力に支援しているパナソニック インフォメーションシステムズ株式会社。「カルチャーの変革」「オペレーティング・モデルの変革」「ITの変革」という3階層のフレームワークでPanasonic Transformation(PX)と呼ばれるDXを推進しており、レガシーからの脱却やクラウドとオンプレミスの特性を活かしたPXベストハイブリッドプラットフォーム、データドリブン基盤の構築、SCMの最適化などITの変革をリードしています。
そんな同社が推し進めるPXベストハイブリッドプラットフォームにおけるログレイク基盤としてSplunk Cloud Platformを採用、システムの予兆をとらえて早期に課題解決に取り組むべくSplunk IT Service Intelligenceを活用しています。
同社では、自社で提供する各種サービスのインフラ基盤をはじめ、グループ企業や一般顧客向けに提供しているインフラ基盤を複数のデータセンターで運営しています。データセンターのファシリティ運用やオペレーションにまつわる運用を担当しているのが、インフラ運用サービス部 DC運用チームです。「インフラ部門全体としては、統合監視のZabbixや仮想基盤のVMware、DBとしてのOracle Exadataなど、様々なインフラサービスを提供しています。何か障害があれば、ネットワークも含めたインフラリソースからログを抽出し、事象を特定する必要があるが、それぞれ個別にログ収集するために時間がかかっていたのです」と寺田氏は以前からの課題について説明します。
そんなログ収集における課題が顕在化するなか、同社で推し進めているPXベストハイブリッドプラットフォームを立ち上げるために欠かせない機能の1つとして、サービスおよびシステムの見える化や運用の高度化に向けたプロジェクトが立ち上がったのです。「各担当者からの要望に応じてログをその都度個別に収集するのではなく、複数のインフラリソースを1つの画面で自由に見ることができる環境を整備することで、アプリ担当者や問い合わせを受け付けるインフラ担当双方のメリットにつながると考えたのです」と寺田氏は語ります。
新たな環境づくりに向けては、複数システムやインフラサービスの稼働状況、異常箇所の特定が1つの画面で実現でき、かつアプリケーション単位での表示や振る舞いから異常を知らせるアノマリ検知、復旧の自動化など複数の要件を掲げてソリューションを検討。そこで注目したのが、本部全体でログレイク基盤として導入が進められていたSplunk Cloud Platformでした。
実は10年以上前からインシデント発生時の調査や監査対応に向けた統合ログ環境としてオンプレミスのSplunk Enterpriseが導入されており、セキュリティインシデントの対応に向けてSIEMのニーズが高まったタイミングでオンプレミスの環境の移行も視野に入れ、Splunk Cloud Platformの採用を決断しました。「当初は別ソリューションの組み合わせを検討していましたが、本部の方針とともに、コストや教育面などの観点で検討した結果、データ収集の基盤として、ダッシュボードによって情報が可視化できるSplunk Cloud Platformを選択したのです」と寺田氏は経緯を語ります。
実データによる検証を実施したうえで、Splunk IT Service Intelligence(ITSI)を選択することに。「Splunkソリューション同士の親和性の高さがあり、検知能力も遜色ないことが確認できました。長期間運用していくなかで利用者のスキルセットや運用部門としての保守性も考慮し、Splunkソリューションで統合できるメリットを高く評価したのです」と則定氏。
さらに、複数のリソースを1つの画面で表示できるなど、調査を行う部隊としても高く評価しました。「サービスの健全性スコアや閾値設定によるKPIも含めた詳細な情報が、サービスに紐づいた構成としてツリー上で可視化できるディープダイブはかなり使えるという印象を受けました」と寺田氏。
ダッシュボードについても、自由にカスタマイズできる点が高く評価されました。「各担当者からは、特定条件で一か月固定表示するようなものが欲しいなど、様々な要望を受け付けています。自由度の高いSplunkのダッシュボードであれば、要望に適したものが簡単に作成できます。月次報告用の資料を作成しているような担当者にとっては、自分でカスタマイズできるメリットは大きいと考えました」と則定氏は評価します。
Splunkが提供するプロフェッショナルサービスをはじめ、知見を深めていけるような支援体制も充実していたこともあり、サービスおよびシステムの見える化や運用の高度化に向けた環境づくりに、Splunk Cloud PlatformおよびSplunk IT Service Intelligenceが選択されたのです。
複数基盤のデータを自由に結合できるだけでなく、冗長化されたサーバーにおいても健全性を見てくれるITSIのおかげで、サービス停止かどうかの判断ができる。従来の監視の仕組みとは違った点が有効だと思います
現在は、Splunk Cloud Platformをログレイク基盤として日々3TBほどのログを収集しており、サーバーやネットワーク機器などログ収集対象機器は3,000台ほど、70種類ほどある各種ログをほぼリアルタイムにUniversal Forwarderを経由して収集しています。インフラ部門では、クラウド環境を含めて3,600OSを超えるサーバー監視とストレージやネットワークを含めたインフラの管理運用を行っており、そのうちサーバーやロードバランサなどのネットワーク領域を含めた1日100GBほどのインフラレイヤーログを中心に、Splunk Cloud Platformが持つダッシュボードで可視化を行っています。ログの種類は、イベントログやメトリクスなどの性能データ、ログイン情報が含まれる操作ログといったものが中心です。
また、現在はOracle Exadataの運用担当者がSplunk IT Service Intelligenceを活用して予兆検知に活用している段階で、今後他のサービスにも広がっていくことが期待されています。「通常の運用であればOracle Enterprise Managerで十分ですが、ちょっと先の未来で起こるべきことを事前に予測したいという担当者のニーズがあり、Splunk IT Service Intelligenceを活用してもらっています」と則定氏。
実際のダッシュボードは、アプリ担当をはじめとした一般ユーザーが見る画面とともに、インフラメンバーが活用する専用画面の2つが用意されています。そのうち3,400名ほどのアカウントが利用している一般ユーザー向けは、Microsoft Office SharePoint Onlineに入口を設置し、担当者ごとに自分の管理しているシステムの情報が閲覧できる簡単アクセスとともに、自身でカスタマイズした画面を参照・編集できるカスタマイズ画面の一覧を提供している状況です。「日常的に見るというよりは、何かイベントがあれば確認したり、データをダウンロードして月次レポートの作成に活かしたりといった使い方が中心です」と寺田氏は説明します。
新たな環境を整備したことで、リソース状況の問い合わせ時間の短縮や報告書作成の工数が大きく削減でき、今では現場でダッシュボードを確認するだけでリソースの状況が確認できるため、問い合わせはゼロになっています。「8か月ほどの集計ですが、問い合わせのリードタイムが9,464時間短縮できたという試算が出ています。工数削減はもちろん、データセンターをご利用いただいている方の満足度向上にもつながっている」と寺田氏は高く評価します。
障害箇所の特定も1つの画面から容易に追いかけられるようになりました。「今までサーバーやDBの情報を個別に収集してExcelで管理するような作業が発生していましたが、今はダッシュボードを見るだけ。とても助かっているという声が寄せられています」と評価する則定氏。設定変更やシステム切り替え時の稼働状況の把握なども現場主導で実施できるなど、多くの場面で可視化による効果が現れている状況です。運用ダッシュボードに対する満足度調査も90%以上が満足しているとアンケート結果が出ています。
なかでもSplunk IT Service Intelligenceで構築したダッシュボードは、DBの健全性を見るための閾値をKPIとして詳細に設定しており、それぞれの値の重みづけから色分けされて表示できるようになりました。障害時の被疑箇所が一目で把握できるなど、現場からも好評です。「Splunk IT Service Intelligenceで構築した構成ツリーの画面から、DBの開発環境においてCPUのリソースが高騰している状況が事前に検知でき、リソース条件を見直すことでアプリ開発時の影響を最小限に抑えるなど、未然に防ぐことができたという実績もあります」と則定氏は語ります。
Splunkソリューションについては、既存のインフラリソースをそのまま活用でき、これまで蓄積された情報が活用できる点が魅力の1つ。「世の中にはAPMによる可視化ソリューションもありますが、専用ツールを入れて取得した情報からしか可視化や分析ができません。Splunkであれば我々が培ってきた情報をそのまま使うことができるだけでなく、エージェントなどのインストールも不要で、SPLでの検索性やデータ結合、集計などもやりやすい」と則定氏。
Splunk IT Service Intelligenceであれば、単なる監視ではなく、システムの健全性が把握できる点もこれまでとは違うポイントです。「冗長化したサーバーの場合、片方でエラーが発生してもサービスは停止しないもの。通常はトラブルの扱いになりますが、サービスの健全性を見ているSplunk IT Service Intelligenceであれば、サービス停止といった重大なエラーにはなりません。そのあたりも使い勝手がいい」と評価します。
また、プロフェッショナルサービスを活用して週次でミーティングを重ねるなど、手厚い支援によってチューニングも含めたノウハウが数多く得られているといいます。「特に高度な分析を要するSplunk IT Service Intelligenceの領域は、単に物理環境を表現するわけではなく、健全性を見るためのツリーを論理的に設定していくことが求められます。何をもって健全なのかという定義も含めて考えていく必要があります。プロフェッショナルサービスがあったおかげで、ここまで作りこむことができました」とその支援体制についての評価も高い状況です。
現在はサーバーやネットワークのログを中心に取得していますが、今後はSANやNASなどストレージ領域にも拡大していくなど、その適用範囲を広げていく予定です。また、現在はDBに適用しているSplunk IT Service Intelligenceの範囲を、他のサービスにも拡張していきたいと期待を寄せています。「各サービス担当者にメリットをうまく訴求していくことで、例えば仮想サーバーの基盤や販売管理といったアプリケーション単位の領域にも広げていきたい」と寺田氏。すでに他部署で導入・運用しているAPMのログも取り込んでいくことで、さらなる高度な分析にも活かしていきたいと語ります。
グループ全体としてデータドリブンな環境整備を強力に進めていることから、今後はさらなる付加価値創出に向けた活動にも取り組んでいきたいと則定氏は意欲的です。「我々が取り組んでいる運用の高度化はもちろんですが、例えばシステムをご利用いただいているお客さまの満足度とシステム稼働の相関関係の見える化によって、営業活動などにも活用できるのではと考えている」。予知検知の情報をもとに調査用のコマンドが自動発行されるような調査の早期化とともに、自動的に再起動がかかるなど自動復旧のような環境づくりにも挑戦してみたいと力説します。
いずれは、他のサービスへの横展開とともに、アプリケーション領域にまで踏み込んだ縦の展開も模索を続けていく計画です。「すでにSplunkのカスタマーサクセス部隊にも関わっていただいており、どういうメリットが出せるのかを検討しながら、Splunkのソリューションをフル活用し、さらなる付加価値提供につなげていければと考えています」と寺田氏に今後について語っていただきました。