データインサイダー

データレイクとは?

データレイクとは、大量の生データを元の形式のままで格納できるデータリポジトリのことで、Pentaho社の当時の最高技術責任者であったJames Dixon氏による造語です。

企業が生成し、取り込み、使用するビッグデータの量は日々急増していますが、データレイクなら受け取ったデータを直ちに格納することができます。データレイクを利用するデータサイエンティストは、オンデマンドでデータセットを使用できるように、データ管理ツールを利用して、データの検出や抽出、ビジネスインテリジェンス、クレンジング、検索時のデータ統合を行っています。

この記事では、データレイクのコンポーネントについて詳しく掘り下げ、データレイクの活用方法、そのメリットとデメリットについて説明するほか、企業のデータ保存と管理におけるデータレイクの未来についても考察します。

データレイクとは?| 目次

James Dixon氏

「データレイク」という用語は、Pentaho社の元CTOであるJames Dixon氏によって初めて提唱されました。

データレイクでのデータの格納方法

データレイクとは、テラバイトからペタバイト規模のデータを、分類したりインデックスしたりせずに、生データの形式のままで格納できるリポジトリです。データの発生元には、IoTやセンサーデータ、通常のファイル、あるいはビデオ、オーディオ、画像、マルチメディアファイルなどのバイナリラージオブジェクト(BLOB)など、さまざまなデータソースが挙げられます。データをパイプラインに取り込んで使用可能にするための操作は、データレイクからデータを抽出する際に行われます。

データレイクアーキテクチャとは?データレイクに格納されるのは構造化データか非構造化データか?

データレイクは、シンプルなオブジェクトストレージ方式で構築されているため、さまざまな種類や形式のデータを格納することができます。組織は従来からオンプレミスにデータレイクを構築してきました。これは現在でも多くの組織で行われていますが、データレイクをリモートサーバーに移行する組織も多くなっています。これには、アマゾン ウェブ サービス(AWS)やMicrosoftなどの主要プロバイダーのクラウドストレージソリューションや、Apache Hadoopなどの分散ファイルシステムが使用されています。

データレイクには、構造化データ、半構造化データ、非構造化データのいずれのデータも格納できます。ただし、構造化データであっても、メタデータやその他の情報が付加されていれば使用することはできません。また、データレイク内のデータは、各ユースケースで利用する前に、クレンジング、タグ付け、構造化を行う必要があります。これらの作業は、データを使用可能な状態にするためにデータレイクからデータを抽出する際に実行されます。

データレイクプラットフォームの構築方法

データレイク自体は、オンプレミスまたはクラウド上のサーバーにネイティブ形式で格納されたデータの集合です。「データレイクプラットフォーム」に関して広く合意された定義は存在しないようですが、データレイクには、サーバーの管理、セキュリティやストレージサービスの提供、データを抽出して使用可能にするための付随的なサービスが必要になります。つまり、データレイクとはデータそのものであり、データレイクプラットフォームはそれを運用し維持するために使用されるサーバー、その他の機器、ハードウェア、ソフトウェアといえるでしょう。

データレイク開発のベストプラクティスについては多くのリソースで説明されています。その中で、大規模な組織に導入されている主要なテクノロジーについては、以下のようなベストプラクティスが紹介されています。

1. 関係するステークホルダーを集めて目標を決定する。

2. アクションプランを作成し、プロジェクトのオーナーシップを割り当てる。

3. 利用可能な手法を評価する。

4. ニーズに適したサーバーアーキテクチャを選択する。

5. ベンダーを選定する。

6. 組織のデータガバナンス、セキュリティ、プライバシーの基準が維持されていることを確認する。

データレイクとデータウェアハウスの違い

データレイクには構造化データ、半構造化データ、非構造化データを混在させることができますが、データウェアハウスで扱うことができるのは構造化データのみです。ほとんどのデータウェアハウスやデータセンターでは、ETL(抽出、変換、ロード)プロセスを通じてデータが取り込まれます。その後、整理(ステージング)、クレンジング、変換、カタログ化が行われてデータが使用できるようになります。

構造化データ

データレイクには、構造化データ、半構造化データ、非構造化データを混在させることができ、クレンジング、タグ付け、その他の処理を行うことなく格納されます。

データベースとデータレイクの違い

データベース(データベース管理システムを含む)は、データの格納、検索、レポート作成に使用されます。データレイクとは異なり、データベースにはスキーマが必要となる場合があり、半構造化データや非構造化データを含めることはできません。一方、データレイクはあらゆるソースからの生データを格納することができ、データを取り出すときにのみ構造化が行われます。データレイクでは、データベースと同様のレポート作成機能を使うことはできません。

データレイクとクラウドの違い

データレイクとはデータの集合であり、組織内のサーバーもしくはクラウドベースのストレージシステムでホストできます。クラウド、つまりクラウドサービスとは、データやアプリケーションをリモートサーバーに保存するサービスのことです。データレイクはクラウドベースのサーバーに格納することもできます。実際にそのように運用されていることも多く、これはクラウドデータレイクとも呼ばれます。

データレイクとSQL / NoSQLの関係

SQL(Structured Query Language)はリレーショナルデータベースを管理するために使用されるプログラミング言語であり、NoSQLは非SQLまたは非リレーショナルとして定義される別の言語です。データレイクには非構造化データが格納されるため、データレイクに格納されているデータに対してSQLやNoSQLを使用することはできません。データを抽出する際には、データをデータベースで使用できるように、組織のデータネットワークに応じてSQLまたはNoSQLが使用される場合があります。

企業でのデータレイクの活用方法

企業にとって、データが最も価値ある資産であるということは常に言われ続けています。機械学習やその他の高度な分析を活用することで、管理者は組織の過去のデータからインサイトを収集し、それを将来の予測に役立てることができます。これによって、ネットワークに対する外部の脅威から企業を保護したり、ワークロードを合理化して効率を高める方法を探ったり、ネットワークの可用性を維持したりすることができます。過去の販売データやマーケティングデータは、将来のパフォーマンスを予測するために使用できます。利用できるデータ量が増え、機械学習やビッグデータ分析ツールの性能が上がるにつれ、予測の精度も高まります。機械学習と予測分析のメリットを活かすために、企業は可能な限り多くのデータを蓄積し、それを利用できるようにする必要があります。

Azureデータレイクは、成長を続ける組織にとって最適なデータレイク環境の1つです。データのクレンジングや整理に労力や費用をかけることなく、将来役立つであろうデータをリアルタイムで蓄積することができます。また、そのシンプルさゆえに、データレイクは構造化されたデータストレージよりもはるかに簡単に拡張できます。データレイクは、企業がデータの価値を最大限に引き出すための最も重要なツールの1つなのです。

データレイクを使用するメリット

データレイクの主なメリットとして挙げられるのが、速度、拡張性、効率性です。現代の企業であっても従来型のデータの作成、取り込み、格納は続けられており、その量は増える一方です。低コストでデータをすばやく格納し、アクセス権を持つ人が、必要なときにデータにアクセスして迅速に使用できるようにすることには大きなメリットがあります。

データレイクはデータリポジトリであり、メタデータを含まない膨大な情報の蓄積ですが、データの検出と処理、取り込みと抽出、データ統合とクレンジングを含む、オンデマンドでの検索が可能です。

データレイクはさらに、組織がデータの価値を実現するうえで妨げとなることの多い、データのサイロ化を解消するのにも役立ちます。保険証券、家の鍵、パスポート、ジム用バッグなど、日々の暮らしで使用するあらゆるアイテムを1つの箱に入れておくことができると想像してみてください。そして、そのアイテムのどれかが必要になったときに、その箱に手を入れてすぐに取り出せるとしたらどうでしょうか。機械学習によるオンデマンド検索機能により、データレイクでもこれと同様のことが可能です。

データレイクを使用するデメリット

データレイクは、利用されるのを待っている単なるデータの蓄積であるため、それ自体にデメリットはありません。とはいえ、データレイクを維持管理し、データの有用性を保つためには、データサイエンスの専門知識を備えた専門家によるサポートが必要になることが多々あります。つまり、必ずしも公平で的確な比較とは言えないかもしれませんが、構造化されたリレーショナルデータベースと比較すると、データレイクは無秩序に見えるかもしれないということです。

適切に管理されていないデータレイクは「データスワンプ(沼)」と呼ばれることがあります。適切に管理されていればデータレイクにデメリットはありませんが、データスワンプになってしまうとデータの品質だけでなく、組織にとっての有用性や価値も低下し、遅延も増大して会社にとっての負担となります。データスワンプは、やがてどこかの時点でダークデータ(企業が所有していながら、検索、特定、最適化、使用できない保管データやリアルタイムデータ)と同じデメリットと課題をもたらし、機会コストを生じさせることになります。

データレイクの未来

データ分析

データレイクには、企業がデータの潜在的な価値を実現できるようにするためのアナリストによるサポートが必要です。

データレイクの未来は、データそのものの未来を映し出しているといえるでしょう。組織が生成し、必要とし、そして使用するデータの量が加速度的に増加し続けるにつれ、大量のデータを格納する必要性も急速に高まっていきます。データベースやデータウェアハウスとは異なり、データレイクは、組織が現在または将来において必要とするデータを迅速かつ効率的に格納することができます。

Splunkの概要


結論:データレイクは企業のこれからのデータ保存に不可欠

機械学習の発展に伴い、データの利用可能性が高まるとともに、データレイクからのデータ抽出も大幅に高速化し容易になりました。機械学習とデータサイエンスを活用すれば、ダークデータも過去のものになります。組織が保有するデータ量が増加するに伴い、データ分析システムはより多くの情報から学習することができるようになるでしょう。データは、組織にとって最も価値ある資産の1つです。データレイクを使用すると、組織は最も効率的な方法でこれらの資産を取得、格納、および利用することができます。