データ量が多すぎて困っていませんか?
数百ものマイクロサービスやコンテナによって構成される最新のアーキテクチャは複雑化の一途をたどり、データ量の爆発的な増加は止まる気配がありません。テレメトリの量が増え続ける中、ノイズの山から価値あるデータだけを選り分けることはほぼ不可能です。そのため、根本原因分析やアラート生成などが必要以上に複雑になり、システム全体のパフォーマンス、スケーラビリティ、予算を圧迫しています。
この問題の本質はむしろ、大量の情報に流されたり、高騰するコストに悪戦苦闘したりすることなく、職務の遂行に必要なデータをどうやって確保するかということです。
そこでSplunkの出番です。Splunkには、柔軟性と拡張性に優れた包括的なデータ管理機能が備わっています。このデータ管理機能により、実際に活用されている利用価値の高いデータを把握し、テレメトリの量やコストをより効果的に管理し、パフォーマンスを最適化することができます。以下で詳しく説明していきます。
大量のデータをもたらす最新のアーキテクチャ
オブザーバビリティを構築するにあたっては、OpenTelemetryのような業界をリードするオープンなスタンダードソリューションを活用するのが最適です。
SplunkのようなOpenTelemetryネイティブのオブザーバビリティソリューションであれば、ソースやタイプを問わず、データのインストルメンテーションと処理の方法を完全にコントロールできます。SDK、API、ツールなどを豊富に備えたOpenTelemetryは、ベンダーロックインを回避し、データを一度取り込むだけで、その柔軟性と拡張性によって効果的にデータを管理できます。異なる言語間でもメトリクスのセマンティック命名規則が一貫しており、データの収集時にデータ間の関係とコンテキストを簡単に識別できるため、最適な方法でインストルメンテーションを行い、不要なデータの取り込みと保存を初期段階で回避できます。
OpenTelemetryの統合プラットフォームでは、フルスタックの相関付けが可能で、データが重複してパブリッシュされることもないため、データ収集の合理化、サイロの解消、監視コストの最適化が実現します。
すべてのデータが等しい価値を持つわけではありません。データには価値の高いものとそうでないものがあります。しかし、出力されるテレメトリの量が爆発的に増加すると、ひとつずつ識別することはほぼ不可能になり、データのサイロ化が進み、障害の早期検出と迅速な調査が妨げられます。この問題を解決するには、データフットプリントを分析して有用なデータとノイズを切り分ける必要があります。それには、堅牢なパイプライン管理ソリューションが必要です。効率的なテレメトリパイプライン管理ソリューションは、必要に応じてデータをルーティング、削除、保存し、パフォーマンスを犠牲にすることなく、より費用対効果の高いデータ管理を実現します。
Splunkで実現できるのはこれだけではありません。
Splunkのメトリクスパイプライン管理機能では、データの取り込みや収集の時点で、メトリクスデータの処理や選択を柔軟に行えます。設定不要ですぐに使用できるインターフェイスと充実したAPIにより、クエリ時にメトリクスを集約したり、使用しないデータを動的なポリシールールによって削除したりすることで、ボリュームとコストを削減できます。データを処理したら、残ったデータをリアルタイムデータとして保存するか、アーカイブするかを選択できます。
低カーディナリティメトリクスの場合や、リアルタイムでの可視化やアラート機能のニーズがある場合は、リアルタイムデータとして保持するのが最適な選択です。すでにデータの集約と削除が行われているため、パフォーマンスを低下させることなく、必要なデータにアクセスできます。
一方、優先度が比較的低く、膨大かつ高カーディナリティのメトリクスを処理する場合は、メトリクスをアーカイブすることをお勧めします。
Archived Metricsを使用すると、データをコールドストレージに保存し、コストをリアルタイムストレージの10%に抑えることができます。保存したデータは、リアルタイムでのニーズが発生した時点でいつでも復元できます。このようにすれば、あとで必要になるかもしれないが、リアルタイムストレージに保持するには膨大すぎるデータを、余分なコストをかけずに保存しておくことができます。メトリクスのアーカイブ機能は大きな変革をもたらします。Splunkのメトリクス管理エンジンを使用して、オブザーバビリティ関連のコストを最大20%削減できたお客様もいらっしゃいます。
サマリー:
Splunkはヒストグラムメトリクスもネイティブにサポートするようになりました。メトリクスポイントを個別に扱うのではなく、複数の統計情報を1つのデータポイントにまとめることによって(sum、min、max、countなど)、データを要約することができます。ヒストグラムメトリクスを使用すると、データの完全忠実性は失われますが、トレンドの把握やデータの可視化が容易になり、ボリュームとコストの最適化にもつながります。
Splunkではさらに、メトリクス以外のデータについても無駄を削減する必要があると考えています。その結果生まれたのがSplunk Log Observer Connectです。これにより、SplunkプラットフォームのユーザーはSplunk Observability Cloudで既存のログを再利用できるようになるため、ログの取り込みや料金の支払いの重複を避けることができます。また、Splunk Observability CloudはSplunkプラットフォームを基盤としているため、SplunkのIngest Processorを利用することもできます。これは、Splunk Cloud Platformの機能であり、データ取り込み時にSPL2を使用してデータを処理し、膨大なログを軽量でコスト効率の高いメトリクスに変換できます。
メトリクスと同様に、Splunk APMを使用すると、どのタグをインデクス化して迅速な分析に利用するか、どのタグをニーズに応じてアクセスできるようにするかといったことを決定でき、トレースデータの使用を自分でコントロールできます。
さらに、Splunk APMのトレースは、アプリケーションサービスのパフォーマンスの全体像をより効果的かつ効率的に把握するのに役立ちます。分析にログを使用すると手間がかかり、データやノイズの量も多くなりがちですが、ログの代わりにトレースデータを使用すれば、サービスのパフォーマンスを直接的かつ詳細に把握できます。データをログからトレースに切り替えてビジネスサービスを分析することで、ライセンス、時間、リソースのすべてを節約できます。
データの収集と処理が終わったら、次はいよいよ使用状況の監視です。これでデータ使用量の急増を抑制できるようになります。
Splunkのメトリクス管理画面にあるMetrics Usage Analytics (MUA)のようなレポートインターフェイスは、データ使用量を監視する際の強力なソリューションとなります。これにより、メトリクスの時系列(MTS)データの消費量を詳細に可視化できるため、メトリクス数の増加につながる高カーディナリティディメンションや高頻度のトークンを簡単に見つけ出し、パイプライン管理についてデータに基づいた適切な意思決定を行うことができます。各メトリクスは、環境内での使用状況についても評価されるため、チャートやディテクターで使用されているメトリクス、まったく使用されていないメトリクスなどを正確に特定できます。
Metrics Usage Analytics (MUA)に加え、Splunk Infrastructure MonitoringにはAWS EC2用のコスト最適化ツールが組み込まれており、これによって使用状況やコスト削減の機会についての実用的なインサイトを取得できます。このツールはわずか数回のクリックでアクセスでき、Splunk Observability Cloudの他の機能とも完全に統合されているため、請求額が設定したしきい値を超えた場合にアラートを通知するよう簡単に設定できます。また、支出のトレンドを確認し、それをデプロイの状況やその他のビジネスメトリクスに紐づけることも可能です。
Splunkでは、トークンを使って使用量の追跡と制限を行うことができます。トークンは、組織のニーズに合わせてきめ細かく区分分け(チーム単位やサービス単位など)して発行できます。また、トークンを使用して、ホスト、コンテナ、カスタムメトリクスなどについてデータの流入量を制限し、各レベルの使用状況を追跡することで、データ使用量をより細かく管理できます。これにより、ショーバック/チャージバックモデルを設定するために必要な基盤が整い、コスト配分を最適化し、透明性を向上させることができます。
オブザーバビリティソリューションの選択は、将来を見据えた大きな決断となります。そのため、データ管理の透明性、柔軟性、効率性を優先したソリューションを選択することが重要です。
Splunkは比類のないきめ細かさ、管理のしやすさ、シンプルさを備えたクラス最高レベルのデータ管理エクスペリエンスを提供します。Splunkなら、パフォーマンスの低下や想定外の請求に悩まされることなく、安心してビジネスを拡張し、オブザーバビリティの本来の課題に集中できます。
データ管理やその他のセルフサービスソリューションに関する情報もご覧ください。また、Splunkの14日間の無料トライアルもお試しいただけます。
このブログはこちらの英語ブログの翻訳、髙柴 元によるレビューです。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。