マシンデータの価値を引き出して、セキュリティ運用に役立つ新たなインサイトを獲得しましょう。
公開日:2022年2月1日
データメッシュとは、分散ネットワーク、この機能を実行するプラットフォーム、またはその両方で大量のデータを管理するための概念とプラクティスです。大量のデータを保存し、データパイプラインを介してそれを迅速に使用できる能力が組織に求められる中、データを管理し使用するための効果的かつ効率的なスキーマの作成が重要になっています。データメッシュを導入すれば、企業のエコシステム全体のさまざまなデータソースを管理し、データを見つけやすくする反復可能な方法を作成できます。同時に、データ利用者が特定のカテゴリの必要なデータに迅速、効率的かつ安全にアクセスできるようになります。
この記事では、データメッシュのさまざまなユースケース、戦略的意思決定におけるデータメッシュのビジネス価値のほか、従来のドメインドリブンの設計の枠を超え、データメッシュフレームワークを組織に導入する方法について説明します。
収集すべきデータの量が増え続けているため、多くの組織では、データを整理、クレンジング、分類せずに保存しています。
データメッシュのユースケースはデータの民主化が考慮されており、データプロデューサーがより迅速かつ効果的にデータを使用できるようにデータアクセスが提供されます。一般的なシナリオには次のようなものがあります。
データメッシュの主要な価値は、組織が特定のビジネスの成果を念頭に置いてデータを使用できる点にあります。データメッシュを使用すると、組織はネットワーク上のあらゆる場所にある、類似した複数のユースケースから収集したデータを見つけ、それらを組み合わせて、特定のトピックに関連する具体的なインサイトや結果を提供できるようになります。このようなユースケースに焦点を当てたデータの組み合わせは、多くの場合「データプロダクト」と呼ばれます。
つまり、データメッシュは特定のユースケースに対応するために必要なデータをすべて見つけられるよう設計されています。データレイクが大規模かつ複雑になったために慎重に検索しなければならない場合でも、データメッシュはすべてのデータを網羅しているため、求める結果を得るために必要なデータをすばやく特定できます。
ハイブリッドデータ環境の拡大に伴い、データへの公平なアクセスを可能にしつつ、データのセキュリティを確保しながらアクセス制御を実装するというデータの民主化の課題も、非常に複雑化しています。データメッシュは、拡張性を確保し、必要なときにデータをすぐに利用できるようにしながら、一貫性のあるデータ所有権を提供する包括的なワークフローを実現します。
データメッシュの導入には以下のようなメリットがあります。
データメッシュは、2019年にZhamak Dehghani氏によって提唱された概念です。データメッシュは概念やプロトコルだけでなく、それに使用される機器も含まれるデータプラットフォームだと同氏は唱えています。さらに同氏は、データメッシュアーキテクチャを、速さ、効率、特異性という強みが新たに備わった、データレイクを超える次世代のデータストレージであると考えています。2019年5月のブログ記事で、Dehghani氏は次のように述べています。
「モノリシックで一元的なデータレイクから一歩先へ進み、意図的に分散されたデータメッシュアーキテクチャに移行する可能性について考えてみてください。常に至るところに存在し、分散しているというデータ本来の性質を積極的に受け入れるのです」
データメッシュの概念を提唱したZhamak Dehghani氏は、データメッシュアーキテクチャを次世代のデータストレージと考えています。
主観的な面も多くありますが、データメッシュアーキテクチャまたはデータメッシュフレームワークの考え方は、ドメイン指向のデータプロダクトを中心とし、その所有者は組織内の独立したドメインチームであるというものです。これらのチームにはデータエンジニアやデータプロダクトの所有者が所属し、共通のデータインフラをプラットフォームとして使用してデータ資産をホストします。
データメッシュプラットフォームは、基本的にデータを統合するためのデータアーキテクチャであり、相互運用性と拡張性をもたらします。また、データの移動やアクセスを妨げる断片化したサイロ環境とは対照的に、機械学習やその他の高度な技術を使用してデータ品質を確保する、より大規模で標準化されたデータインフラを基盤としています。
他にも、データメッシュプラットフォームをデータストレージのための物理的なプラットフォームとしてではなく、概念とプロトコルのセットとして捉える人もいます。データメッシュアーキテクチャの中核は、分散データ処理ノードのネットワークです。データを「保持」するエンティティ(データレイクなど)と、そのデータを「処理」するアプリケーションドメインを、アクセス可能で可用性が高く、安全な方法で接続します。
データメッシュインフラの概念はまだ定まっていないため、データチームが導入に向けて段階的な計画を策定する際にはさまざまな課題が浮上します。一部のベンダーでは、データファブリックの多くの特性に対応したエンドツーエンドのデータ管理ソリューションを提供しています。自社の提供サービスの一部としてデータファブリックのアプローチを採用する組織も増えています。
データファブリックとデータメッシュは、データガバナンスの概念および手法であり、組織が大量の保存データを処理する方法の基盤であるという点で類似しています。一般に、データファブリックの手法は、保存されている場所を問わず、すべてのデータ上に単一の管理層を構築することで、分析データを管理します。一方、データメッシュのアプローチはそれとは異なり、特定の種類のデータ管理の部分を、そのデータを使用する組織のチームやグループの管理下に置きます。
「データファブリック」とは、データ編成の概念としてみなすか、それを使用するデータプラットフォームアーキテクチャとしてみなすかにかかわらず、基本的に、すべてのストレージと使用環境にあるすべてのデータを統合し、共通のプロトコル、手順、編成、セキュリティのセットを適用するために連携させる手法を定義したものです。データファブリックの概念は、データレイク、データウェアハウス、さらにはデータレイクハウスなど、他のビッグデータの概念とも密接に関連しています。
データメッシュと同様に、データファブリックアーキテクチャの基本原則も、オンプレミスからクラウド、エッジまで、ハイブリッドマルチクラウド環境のすべてのデータ構造とビジネスドメインに適用されます。
データファブリックとデータメッシュは、2つの関連した概念であり、これまで明確に区別されてきませんでした。データファブリックとデータメッシュの根本的な違いについては、ベンダーやこの分野を定義する役割を担うデータサイエンティストの間で議論されています。データメッシュの概念を推進しているベンダーもあるかもしれませんが、この概念はまだ明確には定義されていません。
データメッシュ、データレイク、データファブリックの概念はそれぞれ異なりますが、いずれも組織が大量の保存データに対処するための基盤を築きます。
データレイクとは、ソートもインデックスもされていない未加工の形式のデータリポジトリです。単純なファイルから、ビデオ、音声、画像、マルチメディアファイルのようなバイナリラージオブジェクト(BLOB)まで、あらゆる種類のデータを保存できます。データを使用できるようにするためのあらゆる操作(検出、抽出、クレンジング、統合)は、データの抽出時に行われます。
データメッシュを使用することで、データレイクに保存された企業データを構造化して整理できます。データメッシュプロトコルが抽出機能を管理し、抽出時にはデータメッシュアーキテクチャがそれを実行します。実際、この分野の多くの専門家が、データレイクにおけるデータ管理の必要性がデータメッシュの台頭につながったことを認めています。
データメッシュアーキテクチャが組織にもたらすメリットは、データファブリックと同様に、データの取り込み、保存、抽出を可能な限り効率的かつ効果的に行い、ビジネス上の目的でデータが必要になる前にフィルタリングしてキュレーションできることです。
また、データメッシュは安全で効果的なストレージとセキュリティのための一貫したプロトコルも提供します。規制が適用される環境では、データメッシュを構成することで、プライバシーやセキュリティの義務を遵守できます。
この記事では、将来を見据えた内容を多く取り上げました。データメッシュとは概念なのか実際のインフラなのか、専門家の間でも合意には至っていません。とはいえ、組織が迅速かつ簡単に、そして安価にデータを保存し、それを利用する際に必要な操作を実行できることには大きな価値があります。また、ドメインの専門知識を持つユーザーが、利用者の待ち時間を最小限に抑えながら、データの抽出方法を細かく制御できることも合理的といえます。データメッシュアーキテクチャは、データの重複を排除し、データプロデューサーと利用者間のギャップを制御することで、企業が「唯一の真実」という長期的な目標を達成できるようにします。
データメッシュアーキテクチャの将来はまだ不透明ですが、データの保存、アクセス、クエリーに関して同じ目標を達成できる方法がいくつもあります。最終的に組織が目指すのは、サイロ化されたデータを安価に保存し、それがどのようなデータで他のサイロのデータとどのように関連しているかを把握して、インサイトとビジネス価値を提供すべく必要なときに利用できるようにすることです。そして、ここで重要な役目を果たすのが、データメッシュアーキテクチャです。組織が大量のデータの活用に依存しているなら、データメッシュの進化を注視しておくことが近い将来有益であることは間違いないでしょう。
あらゆる問題解決、意思決定、ビジネス戦略にデータを活用することで、最大限の価値を実現できます。この包括的なデータ活用ガイドでその方法をご確認ください。
仮想化、クラウド、コンテナ、マイクロサービスで構成されるインフラストラクチャでは、常に変更とイベントが大量に発生します。どうしたらITイベントの発生を抑えることができるかを説明しています。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は850を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキスト(把握したい要素) に基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。
日本支社を2012年2月に開設し、東京の丸の内・大手町、大阪および名古屋にオフィスを構えており、すでに多くの日本企業にもご利用いただいています。
© 2005 - 2023 Splunk Inc. 無断複写・転載を禁じます。