データインサイダー

ビッグデータとは?

ビッグデータの概念は、1990年代にインターネットが普及し、データストレージの価格の急落に伴ってデータが爆発的に増えたことで注目されるようになりました。ビッグデータというとテラバイト単位のデータを想像するかもしれませんが、一般的には単に「サイズの大きいデータ」を指します。ビッグデータが従来のデータと異なる点は、構造化データと非構造化データが混在しているのが普通であることです。そのため、戦略的意思決定に役立つ実用的なインサイトを引き出すには、これまでとは異なる方法で処理、分析する必要があります。

ビッグデータには、構造化データ、非構造化データ、半構造化データが含まれますが、真の価値を引き出すには、これら各種のデータを統合することが不可欠です。実際、ビッグデータの価値は、その量と種類の多さによって決まります。ビッグデータは、組織の販売管理システムや生産システムから公共のデータベース、ソーシャルメディアフィードまで、あらゆる場所から収集できます。こうした幅広いソースからのデータを相関付け、パターンを見つけ出すための革新的な方法を生み出すことが、データサイエンティストやビッグデータアナリストの最も基本的な任務です。

ビッグデータ分析は、高いスキルが必要で習得に時間のかかる複雑な作業です。また、包括的なデータ管理プラットフォームも必要になります。大量データの処理には、Apache Hadoop、Storm、Sparkなどのツールが欠かせません。しかし、ビッグデータがもたらすインサイトを誰もが渇望する今日の市場で、これらのツールを使いこなせる人材を見つけるのは困難であり、かなりの出費も覚悟しなければなりません。多くのツールは誰でもビッグデータ分析ができるように工夫されていますが、それでも完全に理解するには相当な努力が必要です。その中で、大量のデータを抱える組織にとって1つの大きな進歩が、Map Reduceテクノロジーです。Map Reduceを使用すれば、データからほぼリアルタイムで価値を引き出すことによってこの問題に対応できます。

 

この記事では、ビッグデータの特徴、一般的なユースケース、管理に必要なツール、ビッグデータの活用に取り組むためのベストプラクティスについて説明します。

ビッグデータとは | 目次

ビッグデータの概要

ビッグデータの意味

ビッグデータが持つ意味は業界によってさまざまです。たとえば製造業では、産業用IoT (モノのインターネット)センサーによって生成されたビッグデータを各種のアルゴリズムで処理して、機器の問題を予測したり、最適な保守スケジュールを立てたり、パフォーマンスを継続的に改善したりしています。ヘルスケア業界では、病気のまん延の追跡、治療法の判断、さらには保険金詐欺の発見などにビッグデータが使用されています。金融業界では、マネーロンダリング対策に活用されているほか、投資アドバイザーが最適な財務プランを立てるためにも使われます。

こうしたコンテキストを抜きにして考えれば、「ビッグデータ」に特別な意味はなく、特定のデータセットを指すわけではありません。関連があると思われるさまざまなデータセットをまとめてビッグデータとして分析できます。言い換えれば、ユースケースが決まって初めて、ビッグデータは具体性を持つのです。

ビッグデータの重要性

ビッグデータが重要である理由は、今日の課題の多くがあまりに複雑で、ビッグデータを使用しないと解決策を見出せないためです。ビッグデータは、顧客ニーズの把握、品質の改善、革新的な製品の開発、犯罪の発見、サプライチェーンの中断検知、長年の科学的な問題の解決などを目的としたビジネスインテリジェンスとして、すでに幅広い業界で活用されています。

 

また、ビッグデータには、通常は直感的なダッシュボードやグラフを通して、以前は見つけられなかったインサイトやつながりを発見できるという実用的なメリットもあります。たとえば、製品の製造工程に関するデータを分析してコスト削減や品質改善の機会を探ったり、サポートへの問い合わせやソーシャルメディアの投稿を分析してカスタマーエクスペリエンスに対する理解を深めたり、競合他社の売上データを分析して市場での成果向上に役立てたりできます。適切なビッグデータ戦略がなければ、こうしたインサイトの多くは得られないでしょう。

ビッグデータのユースケース

ビッグデータの種類

データは大まかに以下の3つの種類に分類できます。

  • 構造化データ:コンピュータで処理できるように構造に従って記述されたデータです。Excel、Google Sheets、SQL、JSONなどのファイル形式で扱われ、顧客情報が保存されたデータベースや、購入品と経費を記録したスプレッドシートなどが該当します。構造化データは、合計や平均の算出、傾向の分析、定量化可能な意思決定などに利用でき、あらゆるタイプの分析に対応しますが、残念ながら、自然に構造化されるデータはほとんどありません。
  • 半構造化データ:構造化データと非構造化データの中間であり、タグによってある程度構造化されている非構造化データを指します。たとえば写真を撮ったときに、写真に撮影日時やGPS位置情報のタグが付けられることがあります。このようなメタデータを利用することで、非構造化データよりも分析が容易になります。ただし、分析後のインサイトは、そのデータの非構造化部分から導出するのが一般的です。
  • 非構造化データ:世の中の大半のデータは非構造化データです。YouTubeの動画、ソーシャルメディアの投稿、ポッドキャスト、写真フィルムなど、数え上げるときりがありません。非構造化データには価値のある情報が詰まっていますが、インサイトを引き出すにはビッグデータテクノロジーが必要です。たとえば、機械学習によって写真のアーカイブを分析することで、各写真の具体的な内容を把握できます。馴染みのない名前の非構造化データですが、このように大量に存在するため、初回の分析だけでも膨大なビジネス価値を生むことがあります。

ビッグデータの使い方

ビッグデータは、構造化データ、非構造化データ、半構造化データを含むさまざまなデータを統合して、以前は見つけられなかった相互関係やパターンを発見することで、最大の価値を発揮します。このメリットを活かして、幅広いユースケースを開拓できます。

たとえば、販売履歴、製品に関連するキーワードを含むソーシャルメディアの投稿、オンラインショップの製品レビューを取り込んでビッグデータ分析を行うことで、特定の製品について販売を中止すべきか、リニューアルすべきか、販売を強化すべきかを判断できます。また、多数の患者のゲノムデータと医療履歴を取り込んで解析し、特定の疾患の原因になっている遺伝子を見つけ出して、治療に役立てることもできます。さらに、石油などの天然資源の採掘事業でも、地質調査の結果データ、近隣の採掘現場の機械から得たデータ、さらに地震データを組み合わせて分析し、新たな採掘候補地を開拓したりすることもできます。

ビッグデータは、地震情報を分析して地震を予測したり、資源採掘の候補地を開拓したりするために活用されています。

ビッグデータのメリットと課題

ビッグデータのメリット

簡単に言えば、ビッグデータのメリットは、これまで見つけられなかったインサイトを得られることです。たとえば、ビッグデータにデータサイエンスを適用することで、コストの削減、売上の増大、最適な価格設定、より効果的なターゲットマーケティングや広告キャンペーンの開発、顧客満足度の向上を実現できます。製品についても、パフォーマンスの向上、無駄の排除、間接費の削減、生産コストの合理化、製造機器の稼働時間の改善などにビッグデータを活用できます。さらに、金融詐欺や犯罪の検知、新しい治療法の開発にもビッグデータが活躍します。業種や組織を問わず、ビッグデータテクノロジーは計り知れないメリットをもたらします。

ビッグデータの課題

ビッグデータの価値を引き出すことは容易ではありません。高度なソフトウェア、高い専門知識、そしてもちろん大量のデータが必要です。ビッグデータを活用する上で直面しがちな課題には以下のものがあります。

  • データ品質の問題:有名な格言「Garbage In, Garbage Out (ごみを入れたらごみしか出てこない)」は、特にビッグデータにも当てはまります。大量のごみを入れれば、大量のごみが出てきます。ビッグデータ分析を行うときは、元となるデータセットの品質が十分に高いことを確認する必要があります。さもないと、間違ったインサイトや誤解を招くようなインサイトが生成されるリスクがあります。
  • プライバシーとコンプライアンスに関する懸念:データセットによっては扱いに注意が必要です。財務データであれば、規制の対象となる可能性があります。顧客情報や医療情報は、GDPRやHIPAAなどの規制のコンプライアンスが必要になるかもしれません。データセットが大規模になれば適用される規制が複雑になるため、適用法に抵触しないように組織全体で監視を強化する必要があります。
  • 処理能力の確保とコスト:ビッグデータの処理には、ストレージと処理能力の両方に大量のリソースが必要です。そのコストは決して安くありませんが、クラウドを利用すれば、料金は従量課金で、処理能力もすぐに増強できます。それでも、特にビッグデータ分析を始めたばかりの組織で、適切な知識と経験を持つ人材がいないために修正作業が大量に発生するような場合は、費用が跳ね上がる可能性があります。
  • ビッグデータ用の人材不足:ビッグデータ分析のスキルを持つ人材はまだ少なく、ビッグデータ戦略を効果的に策定して実行できる優れたデータサイエンティストを見つけるのは困難です。多くの組織は、狭い人材市場で獲得競争をするよりも、ビッグデータ分析に必要な知識を備えた人材を社内で育成することに力を注いでいます。

ビッグデータの処理

ビッグデータの収集

ビッグデータはさまざまなソースから収集できます。データソースは事実上無限と言えますが、その一部をご紹介します。

  • ユーザー:ユーザーに関するデータは、Webフォームやアンケートに回答してもらったり、ソーシャルメディアへの投稿を検索したり、製品の購入履歴やユーザープロフィールを調べたりして収集できます。Webサイトでの操作やネットワークへのログイン/ログアウトなど、自動的に生成されるデータもあります。
  • アプリケーション:組織内で使用しているアプリケーションは大量のデータを生成します。セキュリティ脆弱性スキャナー、アプリケーションパフォーマンス管理システム、メールサーバーなど、ログを生成するアプリケーションからは、インフラのパフォーマンスを分析する際に必要なデータが得られます。
  • ミドルウェア:アプリケーションサーバーやWebサーバーなど、業務の基幹を担うシステムも、ビッグデータの宝庫です。
  • ネットワーク:ルーター、スイッチ、FTPサーバー、DHCPサーバーなどが生成するネットワークログには、ネットワークインフラの問題の特定に役立つ情報が豊富にあります。
  • オペレーティングシステム:オペレーティングシステムのログに記録されるパフォーマンスやエラーの情報は、最適化対策を探るためのビッグデータ分析に役立ちます。
  • クラウド/仮想インフラ:  オフプレミスやクラウドへのデータ移行が進んだことで、Google Cloud Platform、Microsoft Azure、アマゾン ウェブ サービス (AWS)などのプラットフォームがビッグデータの生成元として存在感を高めています。これらのサービス(とその基盤インフラ)の包括的なログ機能は、分析に有意義な大量のデータを提供してくれます。
  • 物理インフラ:サーバーハードウェア、POSデバイス、ストレージアレイからビッグデータ分析プラットフォームにデータを取り込めば、深いインサイトを得ることができます。生産機械に取り付けられたセンサーから得られるデータも、今日では価値あるビッグデータとして注目されています。

ビッグデータの分析

ビッグデータ分析は単に、AIなどのツールやテクノロジーを使用して、ときには数テラバイトや数ペタバイトに及ぶビッグデータストアを分析し、実用的なインサイトを生成するプロセスにすぎません。つまり、「ビッグデータ」はデータ自体を意味し、「ビッグデータ分析」はそのデータを処理することを意味します。実際には、「ビッグデータ」がビッグデータ分析の意味で省略形として使われることがよくあります。結局のところ、ビッグデータは分析しない限り特に役に立つものではないからです。

ビッグデータを処理するためのツールとテクノロジー

2000年半ばにビッグデータへの注目が高まって以来、ビッグデータ分析を支援するツールやテクノロジーが数多く誕生しています。大量データの処理に最近よく使用されている主なビッグデータ関連ツールとテクノロジーを簡単にご紹介します。プロバイダー独自のツールもいくつかありますが、多くのテクノロジーはオープンソースで提供され、Apacheによって管理されています。

  • Hadoop:Hadoopは、歴史が長く利用者の多いビッグデータ分析フレームワークであり、データエコシステムの基盤となるテクノロジーです。特に大量データの保存と処理に優れ、あらゆるタイプのデータに対応します。
  • Apache Spark:Sparkは、APIを効率的に使用することでHadoopよりも高速な処理を実現していますが、分散ストレージメカニズムは備えていません。今日では、さまざまなコンピューティングプラットフォームと統合できるビッグデータ処理エンジンとして広く利用されています。
  • Storm:HadoopやSparkが蓄積されたメタデータを一括処理するのに対して、Stormはリアルタイムデータを処理するのが特徴で、現在の市場で最速のビッグデータ処理システムの1つと考えられます。
  • Hive:SQLベースのHadoopのアドオンで、主に大量の構造化データの処理に使用されます。
  • Kafka:こちらも広く使用されているデータ分析プラットフォームです。
  • HPCC:  HPCCは「High Performance Computing Cluster」の略で、上記のツールの多くと競合するプラットフォームであり、バッチデータとリアルタイムデータの両方に対応します。
  • Tableau:Tableauは、オープンソースではないものの、簡単に入手可能で人気の高いビッグデータ処理ツールです。ビッグデータ分析に詳しくないユーザーでも大規模データセットからインサイトを引き出せるのが特徴ですが、より高度なツールが対応するエンタープライズレベルの処理には向いていません。

これらは、今日提供されているビッグデータ基盤テクノロジーのほんの一部にすぎません。ビッグデータ市場は成長が著しく、ほかにも数多くのビッグデータ処理ツールがあります。

導入方法

ビッグデータのベストプラクティス

ビッグデータ分析は複雑で、ベストプラクティスに慎重に従わないと多大なコストが発生する可能性があります。ビッグデータの重要なベストプラクティスには以下のものがあります。

  • ビッグデータ分析を始める前に戦略目標を立てる:まずは、取り組むべき包括的な目標を決めます。たとえば、顧客に対する理解を深める、製品設計を見直す、詐欺行為を検出するなどです。ソフトウェアを導入してデータを取り込む前に、何を実現したいかを明確にしましょう。
  • スキーマと情報アーキテクチャを策定する:データの取り込み、処理、分析を十分かつ適切に行うには、情報アーキテクチャを策定することが不可欠です。従来のデータシステムで処理するには、ビッグデータはサイズが大きすぎ、かつ複雑すぎます。アーキテクチャについては参考になるガイドがたくさんあります。
  • データを棚卸しする:データのインベントリを作成するのは複雑で難しい作業です。ビッグデータの材料となるデータの多くが、今は使用していないデータベースやバックアップアーカイブに保存されていたり、もはやサポートされない形式であったりすることがあるためです。現在どのようなデータを所有していて、目標を達成するためにどのようなデータが新たに必要になるかを正確に把握するのは、かなりの労力を要するでしょう。
  • データの品質を確認する:データが壊れていないか、より有用な構造への形式変換が必要でないか、期待する情報が本当に含まれているかを確認しておく必要があります。
  • セキュリティを念頭に置いてビッグデータ戦略を立てる:ビッグデータには、機密情報や財務データなど、潜在的リスクが多く含まれる可能性があることに注意が必要です。他のデータと同様に、ビッグデータもハッキングや攻撃の対象になります。そのため、暗号化を施したり、強力なバックアップ戦略を策定するなど、データセキュリティ対策を講じてデータを保護する必要があります。

ビッグデータの将来

さまざまな点で、ビッグデータの将来はデータの将来と言えます。データの量は急速に増え続けています。IDC社が2021年3月に発表した予測によると、今後5年間に生成されるデータの量は、デジタルストレージが発明されて以来生成されてきた量の2倍以上になると見込まれます。さらに、新型コロナウイルスの感染拡大をきっかけとするリモートワークの急増がこの傾向に拍車をかけています。今日、モバイルデバイス、IoTハードウェア、ソーシャルメディアなどを通じて、より多くの場所でより多くの人がデータを生成しています。本当に価値のあるデータを見極め、そのデータを収集して分析することが、組織が予測可能な将来を知るための重要な課題になることは間違いありません。

結論:ビッグデータはビジネスインサイトを得るために必要不可欠

今日、組織が成功を収めるにはデータを的確に理解することが欠かせません。そしてそれは、「大規模なデータ」を的確に理解する、という意味になりつつあります。今やビッグデータ分析はビジネスの根幹を支え、それなしでは重要な意思決定ができないほどです。10年先も競争力を維持したければ、ビッグデータを分析できる人材を育て、利用可能なソースからデータを収集し、適切なツールで分析して、ビッグデータを的確に理解できるように体制を整えていくことが重要です。

Splunkの概要


参考リソース