統合サーチは私たちにとって、コスト最適化の面で大きな変革をもたらしました。Splunkには重要なログのみを取り込み、その他のログはS3に保存して、分析や監査などの必要に応じてアクセスできるようにしました。
顧客ベースとデジタル環境が拡大するにつれて、ログデータの量が爆発的に増え、オブザーバビリティとインフラのコストが増大していました。
Splunkの統合サーチ機能とインテリジェントなデータ階層化を利用して、価値が高く頻繁に検索されるログをSplunkに取り込んでリアルタイムで分析できるようにすると同時に、重要度の低いログをAmazon S3データレイクに保存することで、コストを28%削減しました。
Autodesk社のミッション「Make Anything (何でも作る)」を実現するには、すべてのシステムの常時稼働を維持することが不可欠です。
Disney社、Boeing社、BMW社の共通点は何でしょうか?それは、いずれの企業もAutodesk社のソフトウェアに依存していることです。Autodesk社は、世界中の主要な業界で、設計、エンジニアリング、製造、エンターテインメント分野のツールを、中小企業からフォーチュン500企業まで幅広く提供しています。その稼働性は、同社のツールによって生み出されるアーキテクチャや製品、映画を支える土台とも言えます。
プリンシパルエンジニアのJyoti Kumar氏と同氏が率いるオブザーバビリティチームの任務は、Autodesk社のすべてのアプリケーションを監視し、エンドユーザーに悪影響を及ぼす可能性のあるサービス低下や障害を回避して、24時間365日の可用性を維持することです。Autodesk社は、トラブルシューティングとインシデント分析を効率化するために、Splunk Cloud Platformを導入しました。Splunkを中心にログを一元管理するインフラを構築することで、エンジニアたちは、単一の統合的なツールを使って、パフォーマンスの問題のトラブルシューティングと修正を効率的に行えるようになりました。
しかし、データの取り込み量が増えるにつれて、コストをIT予算内に抑えながら統合的なインサイトを獲得することが難しくなっていきました。この問題を解決するために、Autodesk社は、価値の高いログのみをSplunkに取り込み、残りのログはAmazon S3に保存して、Splunk Cloud Platformから統合サーチを使ってアクセスできるようにしました。
Autodesk社は、Splunk Cloud PlatformでFederated Search for Amazon S3を利用して、価値が高く頻繁にサーチされるログデータをSplunkに取り込んでリアルタイムで分析できるようにすると同時に、重要度が低くあまりアクセスされないログ(単一の問題のトラブルシューティングに一度だけ使われるログなど)をAmazon S3データレイクに保存することで、データの取り込みコストを全体で約28%削減しました。「既存のサーチツールの1つをSplunk Federated Search for S3に移行しただけでコストを78%削減できました」とKumar氏は評価します。
Autodesk社では、価値の高いデータと低いデータを区別し、それぞれを適切にルーティングすることで、ログ管理の基準を厳格化し、全体的なデータ品質を向上させています。所定の基準を満たすログのみをSplunkに取り込み、満たさないログはS3に転送して、統合サーチ経由でアクセスできるようにしています。この最適化によって、ペタバイト規模のログ管理が可能になり、重要なアプリケーションのメトリクスをほぼリアルタイムで取得できるようになりました。その結果、Splunkクラスターの健全性向上、ダウンタイムの削減、全体的なパフォーマンス向上につながり、MTTRを30分未満に抑えるという目標の達成にも役立っています。
Autodesk社にとって、Splunkクラスターのパフォーマンスを維持することは最優先事項です。サーチクエリーの書き方が悪いと、CPUとメモリーの使用率が上がり、そこからデータの取り込み速度の低下、クエリーのパフォーマンス低下、アラートの信頼性低下という負の連鎖が起こる可能性があります。この問題に対処するために、Autodesk社はSplunk AI Assistantを導入して、サーチクエリーの品質改善に乗り出しました。Splunk AI Assistantでは、ユーザーが自然言語で指示を出すと、それが適切なコードに変換されます。また、既存のクエリーを分析し、最適なクエリーを提案してもらうことで、品質チェックもできます。「Splunk AI Assistantによって効率的なクエリーを作成すれば、コンピューティングサイクルを大幅に節約し、リソースを解放して、Splunk環境全体の円滑な運用を維持できるはずです」とKumar氏は期待を寄せます。
「運用効率を高めるために、ログの戦略的な活用を重視しています。まずは、すべてのチームに厳格な基準を守ってもらうことから始めます」とKumar氏は続けます。また、Autodesk社では、静的なアラートを活用する以外に、Splunk AI Toolkitに含まれる機械学習モデルを利用してアノマリ検出を実行し、従来の方法では見逃してしまうような異常なエラー急増を検知しています。「これにより、エラー数などのメトリクスが通常のパターンを超えて急増したときにすぐに気づくことができるため、問題の検出と対処にかかる時間を大幅に短縮できます」
しかし、大規模なデータサーチの実行にはコストと時間がかかる場合があります。実際、Kumar氏は「統合サーチを1回実行するたびに、一定数のデータスキャン単位(DSU)を消費します」と説明しています。そこで同氏のチームは、サーチの効率向上とコスト削減に積極的に取り組みました。「ユーザーの利用履歴を調査し、よく使われるクエリーについては、スケジュールに従って自動実行されるサマリーサーチを作成しました」とKumar氏は述べます。この「サマリーインデックスアプローチ」は双方にメリットをもたらしました。よく使われるサーチを事前に実行することで、オブザーバビリティチームはコンピューティングリソースを節約でき、ユーザーは重要なデータをほぼ瞬時に取得できるようになりました。
統合サーチは私たちにとって、コスト最適化の面で大きな変革をもたらしました。Splunkには重要なログのみを取り込み、その他のログはS3に保存して、分析や監査などの必要に応じてアクセスできるようにしました。
Autodesk社では、データサイロと盲点をなくすことで、顧客に影響が及ぶ前に問題を検出して修正できるようになりました。「ログツールをSplunkに統合する前は、あるサービスのトラブルシューティングを行うために専用のツールにログインし、別のサービスのトラブルシューティングを行うときは別のツールにログインする必要がありました。そのため、1つの問題をトラブルシューティングするために複数のツールにログインしていました」とKumar氏は説明します。現在では、Splunk Cloud Platformにログインするだけで、下流と上流の両方のサービスのパフォーマンスを確認できます。この包括的な可視化によって、トラブルシューティングにかかる時間が短縮され、問題の迅速な解決が可能になり、組織全体のオブザーバビリティプラクティスが強化されました。
「ログイベントを取り込み、そこから無数のメトリクスを生成してトラブルシューティングやアラート生成に活用できるのは、Splunkだけです」とKumar氏は評価します。
その直感的なサーチ処理言語(SPL)とセルフサービス機能のおかげで、Splunkは社内に広く浸透し、ツールの増加の抑制とチームを横断した可視化につながっているとKumar氏は考えています。「SplunkのSPL自体が強力です。上流のサービスと下流のサービスのログを相関付けて、どのサービスがダウンしているかをアラートで知らせることができます」
「他のプラットフォームも統合サーチをサポートしていますが、単一のインターフェイスでSplunkとS3をシームレスにサーチできるのはSplunk Cloud Platformだけです」とKumar氏は続けます。最終的に、Autodesk社のすべてのチームがSplunkを使って独自のアラート、ダッシュボード、分析を作成できるようになり、MTTRの短縮と運用効率の向上につながっています。
私たちの世界はAutodesk社の製品に支えられています。そして、そのAutodesk社のオブザーバビリティを支えているのがSplunkなのです。
データファブリックに関するシスコのビジョンは、運用データと分析データの分離、データの品質向上、コストの最適化、大規模な社内データのAI活用というAutodeskのアプローチと共鳴します
Autodesk社は、Federated Analytics 2.0のアルファプログラムに参加するなど、統合サーチのさらなる活用を進めると同時に、Splunk Cloud PlatformとCisco Data Fabricの統合の強化も検討しています。特に強い関心を持っているのが、LLMやAIアシスタント領域での活用です。「AIモデルのトレーニングに必要な膨大な量のデータを保存するには、卓越したソリューションが必要です」とKumar氏は言います。「そこで注目しているのがCisco Data Fabricです」
Cisco Data Fabricのアーキテクチャは、コスト効率の高いデータ保存と大規模データセットへのアクセスを可能にする点で、インフラコストを最適化しながら高度な分析とAIをサポートするというAutodesk社の継続的な戦略に合致します。「Cisco Data Fabricの導入は、業界標準のスケーラブルなデータレイクに向けた自然な進化です」とKumar氏は述べます。
Autodesk社は今後、Cisco Data Fabricを使って、ログや独自データのアドホック分析を実現するとともに、Splunk MCPエンドポイントを使って社内MCPエージェントをサポートし、データアクセスと運用インサイトをさらに強化する計画です。