「Splunk画面へのアクセスURLをSlackで共有すれば、実際に検索内容を変えて各自の活用が進む場面も。エンジニア全体にログ活用を意識してもらえるようになってきています。ログの検索や絞り込みは、わずか5秒程度でできてしまうなどかなり短縮できています。関係性の分析を始めるまでの時間が圧倒的に早くなりました」
事業規模の拡大で提供サービスのログ量が増えるなか、各サーバにログインしてログを収集するなど非効率な業務の解消が必要に。またアプリケーションエンジニアに対してログ活用を促すことで、チームとして障害対応に取り組める環境整備も進めたい。
ログの絞り込みまでに1日ほど必要だった環境から、検索してわずか数秒で必要なログにたどり着けるなど、分析にしっかり時間が確保できるように。開発メンバーにもURL1つでログの共有が可能で、エンジニアに対してログに触れる機会が増やせるようになった。
2015年に創業し、自然言語処理やコンピュータービジョンを中心とする独自のAI技術を武器に、世界を豊かにするコンテンツテクノロジーカンパニーを目指している株式会社オープンエイト。「AI×SaaSであらゆる企業の情報流通戦略の成長ドライバーとなる」ことを事業コンセプトに、ビジネス動画クラウド「Video BRAIN」を中心としたSaaS事業をはじめ、動画自動生成機能などのAPIを提供するAPI事業、アルゴリズム・ソフトウェアモジュール群からなる“OPEN8 CORE TECHNOLOGY”を活用したMLaaS(Machine Learning as a Service)事業を展開しています。
そんな同社が手掛けるビジネス動画クラウド「Video BRAIN」は、写真やテキストを入稿することでAIがデータを分析し、ストーリー性のある動画を作成することが可能なサービスとして2019年にオフィシャルリリースし、これまで多くの企業の動画制作を支援してきました。マルチクラウド環境でサービス基盤が整備されているVideo BRAINにおいて、統合的なログ収集、分析基盤として採用されているのが、クラウド環境で利用できるSplunk Cloud Platformです。
2019年のサービス開始以来、動画ニーズの高まりに応じて順調に事業規模を拡大させ、利用するユーザー数が右肩上がりに増えているVideo BRAINですが、以前からサービス基盤で利用するシステムのログを統合的に収集し、分析する環境が整備されていませんでした。「もともとログの調査を行う際には、各サーバにログインしてログを収集し、エラーの個所を検索して特定するようなやり方でした。ユーザー数の増加でログの量も増えていくなか、非効率な環境から脱却し、万一に備えて迅速にログ調査が実施できる環境が望まれていました」とCTOの石橋氏は説明します。以前の環境では、そもそも不具合などの検知がうまくできず、アプリケーションを触りながら気づいた個所を起点に、その時間帯の周辺を探していくというアプローチだったこともあり、1日がかりで調査せざるを得ないこともあったのです。
また、調査に時間がかかるだけでなく、アプリケーションエンジニアに対してもエラーの状況やログの確認といった課題もありました。「開発環境であればいざ知らず、わざわざ本番環境にログインしてログを見ていくということを、アプリケーションエンジニアは基本的に行いません。本来はSREの部隊がログを見ていますが、簡単に情報共有できればチームとして一緒に障害対応もやりやすくなる。そんな環境づくりも必要だと考えていました」と語ります。
新たな環境づくりに向けて検討したのは、SRE部隊だけでなく多くのメンバーで情報が共有しやすいクラウドサービスであること、そしてログに関わる開発工数を可能な限り最小限にできることでした。「我々はRuby on Railsをフレームワークにしており、ログが複数行にまたがってしまうことが多く、検索性の良くないソリューションの場合、特定の文字列が1行しかヒットしないケースも。パースする手間を可能な限り避けられるよう、Ruby on Railsのソースタイプに対応している環境を希望したのです」と石橋氏。そこで、効率的にログ収集し、原因調査を行うことが可能な複数のソリューションを試用したものの、エージェント配布やパースの開発も含めて使い勝手の面で課題があり、運用やメンテナンスに多くコストが発生してしまうものが多く見られました。
そこで注目したのが、クラウド環境で利用できるSplunk Cloud Platformでした。「ソースタイプがRuby on Railsに対応しているSplunkであれば、パース開発せずともきちんと検索できる点は大きかった。スピーディにログ収集でき、必要に応じて柔軟に分析できるなど、まさに我々の望んだ環境だったのです」と石橋氏は評価します。また、情報システム部門としての立場からセキュリティ対策の強化も進めており、将来的なセキュリティプラットフォームへの展開も期待できたと語ります。「現在の取り組みとは別に、内部不正や外部脅威対策などセキュリティに関する取り組みも検討しています。ログを相関分析することでインシデントの可視化につながるSIEMとしても活用できるなど、ソリューションの広がりについても期待できると考えたのです」。
機能を絞ってスモールスタートできるSplunkだけに、社内の承認も得られやすく、検討開始からすぐにログ環境を整備し、短期間のうちに導入を進めることに成功します。結果として、障害発生時に必要なログ調査の基盤として、Splunk Cloud Platformが活用されることになるのです。
現在は、主にSREのグループが日々の運用時に活用し、開発メンバーとの共有も含めて20名ほどで使用しています。ログの収集先は、Video BRAINのアプリケーションログをはじめ、Webアクセスや認証、バックエンドで稼働するDBとしてのAmazon Aurora、分析基盤として利用しているGoogle BigQueryなど、顧客に提供しているSaaSサービス全般のログを収集しており、全体で60台ほどのVMのログを集めています。収集方法はSplunk Universal Forwarderを利用して1分おきに転送しており、ログ自体は1年間保持したうえで、Splunkの機能を使ってAWSのS3にエクスポートする形です。「サービス基盤はコスト面を意識してOracle CloudやMicrosoft Azureなども活用するマルチクラウド環境で運用しているのが特徴です。全てパブリッククラウドで動かしていますので、ネットワーク系のログはクラウド側のサービスを活用して監視しています」と石橋氏。
Splunkにて新たな環境を整備したことで、これまで1日ほどかかっていたログの検索や絞り込みが、わずか数秒で必要なログにたどり着けるなど、劇的な効果につながっています。「実際の関係性の分析などはエラーの状況によって変化するため一概には言えませんが、最初の絞り込みが圧倒的に短縮できたことで、分析にしっかり時間が活用できるようになりました」。
もちろん、分散していたログが集約できたことで、時系列に情報が追いかけやすくなり、ユーザー動向の追跡も効率的に実現できるようになったと語ります。
また、開発メンバーにもSlackにSplunk画面へのアクセスURLを張り付けて簡単にログが共有できるなど、ログ活用に向けた共通意識の醸成にも役立てています。「ログをコピペしてもその情報しか見えませんが、SplunkへのURLから画面に入ってもらえば、自分が気になるログも簡単に検索できます。共有しやすくなったことでログに触れる機会が増やせています」と評価します。特にSplunkは、導入のハードルが高くなるユーザー数課金ではないため、エンジニア全体に浸透させやすいことも大きな魅力の1つと石橋氏は力説します。「Splunkにあらゆるログを転送することで情報が集約でき、画面へのアクセスURLをチャットに共有するだけで、プロダクトチーム全体で深堀りなどが可能になっています。アプリケーションエンジニア、PM、SREの全員がデータをもとに運用できるようになり、社内のDevOpsが一歩進みました」。ただし、今はアプリケーション開発のリーダークラスが中心で、メンバーまで含めて障害対応に関わる機会が少ないため、さらに多くのメンバーに共有していきながら意識改革を進めていきたいと意欲的に語ります。
Splunkの使い勝手については、クエリーを駆使せずともGoogle検索のように簡単にキーワードから抽出できるため、その使いやすさが取っ掛かりになりやすい。「SPLの基礎知識がなくともキーワード検索からログが探し出せますし、絞り込みができれば素早く結果が表示されます。ソースタイプの幅も広く、新たな環境からのログ取得もしやすい」。
今後については、本番環境のログを中心にSplunkに取り込んでいますが、契約している容量を拡張しながら全てのログをSplunkに取り込んでいきたいと語ります。「開発環境はもちろんですが、リリース前に行うQAテストの環境も含めてログ集約を図っていきたい。特にアプリケーション開発時にもログが分散しており、調査したいときにどこにログがあるのかを考える手間そのものが時間の無駄です。無駄が増えるとログを見てもらうことが億劫になってしまう。コミュニケーションロスを減らす意味でも全てのログをSplunkに集約することがシンプルだと考えています」と石橋氏は語ります。また、提供サービスだけでなく、セキュリティ強化の観点からログを見ていく環境づくりにも取り組んでいきたいと期待を寄せています。
セキュリティに関しては、SIEMとしてログを集約していきながら、セキュリティ運用の自動化が可能なSOARについて言及します。「セキュリティの運用負荷を軽減する意味でも、アラートの検知から対処や修復の自動化につなげていけるSOARについては興味を持っています。外部脅威だけでなく、内部不正対策としてもSIEMについては必要になってくるはずです」。
また、アプリケーション側のエラーも含めてログですべてを一気通貫で把握できるSplunk Observability Cloudについても期待を持っていると石橋氏。「特定の時間に発生したログを調べていくだけでも大変ですが、ワンクリックで必要な情報が関連性をもって把握できれば、サービス品質の向上にもつながるはずです」。また、Observabilityについては、アプリケーションのパフォーマンスを監視するAPMはもちろん、ユーザー行動が追跡できるSplunk Real User Monitoringなどを活用し、アプリケーションエンジニア側で積極的に改善していけるような環境づくりについても整備していきたいと今後について語っていただきました。