データインサイダー

予測分析とは

予測分析とは、過去の行動パターンを特定し、将来の成果を予測するために、大量のデータに数理モデルを適用する手法です。

データマイニング、機械学習、統計アルゴリズムの組み合わせがもたらす「予測的」要素により、予測分析ツールは単純な相関付け以上の機能を実行できます。ビジネスでは、予測分析が以下のようなさまざまな用途に利用されています。

  • 保険サービスや金融サービスにおけるリスクの低減
  • クレジットカード詐欺の検出
  • 需要と供給のより正確な予測
  • コンピューターネットワークに影響を与える脅威と問題の特定

予測分析を組み込んだソフトウェアが増えてきており、あらゆる規模の組織でユーザーにとって身近なものになりつつあります。予測分析はデータサイエンスや高度な分析に関する訓練を受けていないユーザーにも実務上の価値をもたらし、まさにすべてのユーザーが恩恵を受ける機会を提供します。このトレンドはしばしば「データの民主化」と呼ばれます。これは、誰もがデータを利用してより良い意思決定を下せるように、組織全体でデータを利用できるようにするという概念です。

以下では、予測分析がなぜ重要なのか、機械学習やデータマイニングなどの他のテクノロジーとの関係、モデルの役割、予測分析を始めるにあたってのヒントについて見ていきます。

アナリストレポート | IDC社のIT運用管理市場シェア調査でSplunkが1位を獲得

予測分析の概要

予測分析が重要な理由

予測分析を利用すると、企業や組織は実際のデータに基づいて重要な意思決定を下したり、考えられる結果を予測したりといったことを、これまで不可能だった規模で実行できるようになります。企業が生き残れるかどうかは、顧客のニーズを満たしながら、予測、計画、運用を効率的に行えるかどうかにかかっています。直感や推測、過去の情報に頼って人々が求めているものを憶測し、新製品の発表などの重要な決定を下した企業は、数十億ドルもの損失を被ったり、破綻に追い込まれたりしています。

データアナリティクスの3つのタイプとは

データアナリティクスには、記述分析、予測分析、処方的分析という3つのタイプがあります。

  • 記述分析では、データ収集と履歴データのマイニングを使用して、「何が起こったのか?」という質問に答えます。記述分析は基本的に統計学と同じで、分析やインサイトを伴わない情報を提供します。
  • 予測分析は以前のデータのパターンを特定し、「次に何が起こるか?」という質問に答えます。
  • 処方的分析は比較的新しい用語で、「今何をすべきか?」という質問に答えるために設計された分析です。処方的分析の結果は単なる予想や予測ではなく、最善の方法を推奨するものです。

予測分析がもたらす結果

21世紀の人間の活動は、そのほとんどすべてにおいてデータが生成されるため、ほぼすべての企業、組織、業界が、予測分析から価値を引き出すことができます。ここでは、考えられる何百もの予測分析のユースケースからいくつかをご紹介します。

銀行や金融サービスにおける予測分析:

予測分析は、リスク評価から顧客関係の強化まで、銀行や金融サービス活動のあらゆる領域で役立ちます。予測分析は以下のような目的で使用されます。

  • 通常とは異なるトランザクションにフラグを立てることでクレジットカード詐欺を防ぐ。
  • クレジットスコアリングを行い、ローンやクレジットの申し込みを承認するかどうかを決める。
  • 顧客離れを予測し、金融機関を乗り換えようとしている顧客に銀行から接触できるようにする。
銀行や金融サービスにおける予測分析

小売業における予測分析:

オンラインショップでも実店舗でも、小売業者は在庫と物流を管理する必要があります。予測分析ツールを使用すると、小売業者は過去の販売データ、購買習慣、地理的嗜好、さらには気象データといった大量の情報を相互に関連付けてパフォーマンスを最適化できます。

  • 販売データと物流データは、十分な商品を倉庫に確保し、適切なタイミングで商品を店頭に並べるのに役立ちます。
  • 顧客データは、個々の購入者へのカスタマイズされたレコメンデーションやプロモーションを実現します。実際のデータに基づいた適切なターゲティングを行うことで、買物客がより反応しやすい広告やプロモーションを作成できます。
  • 販売やプロモーションのタイミングが一種の科学となります。予測分析によって顧客データ、在庫データ、競合データ、過去の販売データを組み合わせることで価格を下げる(または上げる)最適なタイミングを選べるようになります。
小売業における予測分析

医療における予測分析:

医療専門家は、世界的な疾患統計、薬物相互作用、個々の患者の病歴などを利用して、優れた医療を提供し、より効率的かつ効果的な病院運営を行えるようになります。

  • Mental Health Research NetworkとKaiser Permanenteの研究者たちが実施した2018年の研究では、予測分析を使用して患者の電子カルテ(EHR)とうつ病のアンケートへの回答を相互に関連付けることで、自殺の危険性が高い患者を特定できました。
  • ペンシルベニア大学保健システムが開発した予測ツールは、試用期間中に、重度の敗血症またはショック状態を起こす患者を発症の12時間前に特定しました。
  • デューク大学の研究者たちは、診療所の過去の予約データに予測分析を適用することで、予約日に来院しない、あるいは直前にキャンセルする可能性のある患者を既存のモデルより67%正確に特定し、時間とリソースを節約できることを発見しました。
医療における予測分析

製造業における予測分析:

高度に自動化された最新の工場では、予測分析ツールを使用して、設計、購買、生産、品質管理、在庫管理、配送など、製造プロセスの各ステップを監視し、最適化できます。

  • たとえば、サプライチェーンのデータと販売予測は、購入時に正確な意思決定を行うのに役立ち、高価な原材料を必要になる前に購入するのを避けられます。また、同じデータを使用し、消費者のニーズに合わせて製造スケジュールを調整することもできます。
  • 予測分析により、製造した商品をある場所から別の場所に最も効率的な方法で届けるために必要なすべての要因を考慮して、出荷や輸送にかかるコストを削減できます。
  • マシンデータを用いた予測分析を使用すれば、工場の機械や設備の保守状態を追跡して比較し、機械がいつ故障するか予測が可能です。

マーケティングにおける予測分析:

消費者が目にする場所はどこも広告やマーケティングで溢れ返っており、消費者の注意を引き、それを維持することはこれまで以上に難しくなっています。

  • 予測分析ツールは、マーケティング見込み客をより効果的にセグメント化し、見込み客の興味と関係のあるWebサイトやソーシャルメディアに広告を表示するのに役立ちます。さらに高度な予測マーケティングツールでは、一般に公開されているデータと非公開データベースの情報を分析し、理想的な消費者と一致するデータを持つ人々を見つけ出すことで「購入の意思」を特定できます。
  • マーケティング担当者は見込み客のスコアリングにも予測分析を使用します。履歴データやインテントデータなどの見込み客に関するデータを使用して、見込み客が購入する可能性、さらには見込み客にどのように接触すべきかやどのような情報を提供すべきかを判断します。
マーケティングにおける予測分析

予測分析を取り巻く環境

予測分析とビッグデータ

皆さんはデータの増加に関する多くの統計を耳にしたことがあるでしょう。マーケットインテリジェンス企業であるIDC社の2018年の調査によれば、世界中で生成されるデータは2025年までに163ゼタバイト(ZB)まで増加すると見込まれています。これは、2017年に生成されたデータ量の10倍です。その主な推進要因がIoT(モノのインターネット)です。Intel社によれば、2006年のコネクテッドデバイスの数は世界で20億台程度でした。2020年には、その数が2,000億台に上ると見込まれています。これらの各デバイスが生成するデータは、優れた顧客サービスの提供、ネットワークの最適化、マーケティングメッセージの効果的なターゲティング、データセキュリティの向上など、さまざまな用途に使用できます。

予測分析の価値は、データの増加とともに高まり続けています。何十億もの人々、デバイス、ネットワークによって日々生み出される膨大な情報は、人間の脳だけでは対処できない課題と機会を生み出しています。予測分析はビッグデータの可能性を実現する大きな一歩であり、データを分析して将来の結果を予測するという前例のない能力を提供します。

予測分析とその他の新たなテクノロジー

予測分析は、データや分析に関する発展途上のその他のテクノロジーと混同されがちです。予測分析と混同されることの多いテクノロジーは、機械学習、予測モデリング、データマイニングの3つです。

  • 予測分析と機械学習は同じか?予測分析と機械学習は同じではありません。機械学習はコンピューターが自らの活動から学習することを可能にする技術であり、予測分析プロセスの一部として適用できる要素の1つです。
  • 予測分析と予測モデリングは同じか?予測分析と予測モデリングは同じではありません。予測モデリングは予測分析に使用される技法であり、データを特定のアルゴリズムの数理プロセス(モデル)に適用して結果を判断します。
  • 予測分析とデータマイニングは同じか?予測分析とデータマイニングは同じではありません。データマイニングは大量のデータを調査して分析し、パターンや関係を特定するプロセスです。このデータパターンに基づいて予想や予測を行うのが予測分析の仕事です。

予測分析とモデリング

アルゴリズムと予測モデルの違い

アルゴリズムは予測分析の数学的な基礎です。レシピのように一連の手順で構成されており、結果を達成したり問題を解決したりするために実行されます。問題を解決するためにアルゴリズムをどのように適用するかを定義するのがモデルです。モデルとは、質問や、その質問に答える際に考慮する変数を定義するフレームワークです。アルゴリズムとは、変数を重み付けし、答えに辿り着くために使用する手順です。

Webを少し検索すると、多くの人々が「アルゴリズム」と「予測モデル」という言葉を混同して使っていることがわかります。また、「分類子」という言葉も同じ文脈で使用されています。言葉は流動的なものですが、「分類子」は一般に、分類のために特別に設計されたアルゴリズムを示すために使用されます。

予測分析に使用されるモデルの種類

予測分析でよく使用される一般的なモデルは、分類アルゴリズムと回帰アルゴリズムです。

  • 分類アルゴリズムは、データをカテゴリでソート(分類)します。この人物は女性か男性か、このメールはスパムかそうでないかなどです。
  • 回帰アルゴリズムは、数値的な結果を予測するために使用されます。価格が上がるか下がるか、新しいビジネスでどのくらいの顧客を見込めるかなどです。

予測分析で最も一般的に使用されるモデル

予測分析でよく使用される一般的なモデルには、線形回帰、ロジスティック回帰、線形判別分析、判定ツリー、Naive Bayes、k近傍法、サポートベクターマシン、ランダムフォレスト、ブースティングなどがあります。それぞれのモデルについては、以下で詳しく説明します。

データサイエンティストは、達成したい結果のタイプに基づいてさまざまな予測モデルを使用します。各アルゴリズムの計算は複雑なためこの記事では扱いませんが、ここでは代表的な予測分析アルゴリズムをいくつかご紹介し、その使用方法について簡単に説明します。

銀行や金融サービスにおける予測分析:予測分析は、リスク評価から顧客関係の強化まで、銀行や金融サービス活動のあらゆる領域で役立ちます。予測分析は以下のような目的で使用されます。

  • 線形回帰。従属変数を1つ以上の独立変数と比較します。代表的なアルゴリズムの1つであり、結果や効果の予測、最も影響の大きい変数の決定によく使用されます。たとえば、線形回帰モデルは以下のような質問に答えるために使用されます。
    • マーケティングキャンペーンで獲得できるセールスリードの数とキャンペーンの推進にかかるコストとの関係は?
    • 販促予算をたとえば1万ドル増やした場合、どのくらいのリードを獲得できるか?
    • 製造に使われる原材料のコストは1年でどれくらい上がるか?
  • ロジスティック回帰。従属変数を1つ以上の独立変数と比較して、ある結果が起こる確率を判定します。たとえば、年齢、性別、体重、血液検査の結果、家族歴などに基づいて、ある人が糖尿病にかかる可能性がどれくらいかを予測できます。また、選挙において、年齢、人種、収入、場所などの人口統計情報の組み合わせで人々をグループ化し、どの候補者が最も訴求力が高いかを予測する場合にも使用できます。
  • 線形判別分析は分類に使用されます。典型的な例として、特定の製品を購入する可能性が高い顧客グループをアンケートの回答に基づいて割り出す場合などが挙げられます。
  • 判定ツリーは、「はい/いいえ」で答えられる質問を使って結果に到達する2進法です。判定ツリーは、たとえば仕事の応募者をソートするために使用できます。この応募者は大学の学位を持っているか?答えが「いいえ」なら、それに代わる資格を持っているか?答えが「はい」なら、3年以上の経験があるか?答えが「はい」なら、所定のスキルと経験を持っているか?といった具合です。
  • ランダムフォレストは、分類と回帰の両方に広く使用されているアルゴリズムです。これは、複数の判定ツリーを組み合わせて単一の判定ツリーよりも正確な結果を得るアンサンブル手法(複数のアルゴリズムの組み合わせ)です。
  • Naive Bayesはシンプルでありながら強力なアルゴリズムで、スパムフィルターなどのテキスト分類によく使用されます。Naive Bayesスパムフィルターは、メール内の単語をスパムメールおよびスパム以外のメールと関連付けて、そのメールがスパムである確率を判定します。
  • k近傍法(KNN)は、あるデータポイントの特性を他のデータポイントとの近さに基づいて予測する場合に使われます。KNNは、たとえばクレジットスコアリングに使用できます。ローンやクレジットカードの申請者は、その人と同じ財務情報を持つ別の人々と同様の信用格付けになる可能性が高くなります。
  • サポートベクターマシン(SVM)は、分類や回帰の問題に使用できます。SVMアルゴリズムは、トレーニング例(類似性によって分類された既知のデータ)を使用して、新しい例を適切なカテゴリに割り当てます。SVMは画像分類(「これは木か人か?」など)に有効であることが証明されており、従来の手法よりも正確な結果を得られます。
  • ブースティングは、精度を高めるために設計されたアンサンブル手法です。トレーニングデータを使用してモデルを作成し、最初のモデルのエラーを修正するために2つ目のモデルを作成し、2つ目のモデルのエラーを修正するために3つ目のモデルを作成する、というように、望ましい結果が得られるまで続きます。
  • AdaBoostはブースティングアルゴリズムの最初の成功例と考えられており、それ以降のモデルはこのアルゴリズムをベースに構築されています。

ニューラルネットワークとは

ニューラルネットワークは、人間の脳の機能に似せて設計された数理モデルです。ニューラルネットワークは、1つ以上の変数が不明な場合にデータの非線形関係を発見したり、複雑なパターン認識問題を解決したりするのに役立ちます。自動運転車はニューラルネットワークに依存しています。なぜなら、自動運転車は膨大な量のデータを瞬時に分析して運転に必要な決定を下さなければならないためです。

予測分析の導入方法

データアナリティクスとデータアナリシスの違い

データアナリシスとは、データを分析してそこから結論を引き出すプロセスのことです。また、データアナリストが行う仕事とも言えます。データアナリティクスとは、データを特定、分類、整理することであり、分析できる状態にするために使用されるさまざまな手法の総称です。

最適な予測分析ソフトウェアを見つける方法

最適な予測分析ソフトウェアとは、特定のニーズと予算に最も適合するソフトウェアです。予測分析ツールには、以下のようにさまざまな種類があります。

  • ビジネスインテリジェンスソフトウェア
  • 高度な統計分析ソフトウェア(オープンソースとプロプライエタリの両方)
  • 予測顧客分析
  • 予測マーケティングソフトウェア
  • 予測リードスコアリング
  • 予測IT監視ソフトウェア
  • サプライチェーン管理、医療、製造、物流などの業界固有のツール

この分野の認知度が高まり、広く普及したことで、予測分析やその各種バージョンを自社のツールに組み込むソフトウェアベンダーが増えています。購入者にとっての課題は、そのツールが実際に予測分析を提供しているのか、基本的なアルゴリズム機能のみを使用しているのか、あるいはただ予測分析という言葉を使っているだけなのかを見極めることです。

さらに、多くのソフトウェアプラットフォーム(Splunkを含む)が自社のソリューションのさまざまな要素に予測分析を組み込んでいます。製品ポートフォリオには、予測分析が組み込まれたソリューションが含まれている場合もあれば、予測分析が必要でない機能を実行するソリューションが含まれている場合もあります。つまり、ベンダーが予測分析を持っていると言っても、実際にはそうではない場合もあれば、特定の製品にのみ組み込まれている場合もあります。

予測分析を使い始める方法

予測分析を使い始める最善の方法は、解決できる問題とできない問題を把握し、解決すべき最もクリティカルな問題を定め、スキルとテクノロジーのギャップを見極め、パイロットプロジェクトを実施するためのプランを作成することです。

 

  • 解決できる問題とできない問題を把握する。予測分析にはさまざまなメリットがありますが、限界もあります。熟練したプロフェッショナルが持つスキル、判断力、経験に取って代わることはできません。予測分析は、有用な出力を提供するための十分なデータがある場合にのみ機能します。
  • 解決すべき最もクリティカルな問題を定める。解決しようとしている問題を正確に把握していなければ、有用な結果は得られません。予測分析を大規模なデータセットに無差別に適用し、出力の中の問題を特定することは可能かもしれませんが、可能な限り正確な方法で問題を定義する方がはるかに効果的です。
  • スキルとテクノロジーのギャップを見極める。ソフトウェアソリューションは予測分析の実行を容易にするとは言っても、使用するには専門知識が必要になります。分析に必要なデータを特定して準備するための人材、インフラストラクチャ、ツールを用意することが極めて重要です。
  • パイロットプロジェクトを実施する。上記の点をすべて解決したら、小規模なパイロットプロジェクトを実施して情報を活用しましょう。他の人も重要だと認めている問題を選びます。達成したい成果と、それを証明するためのメトリクスを決定します。処理時間を短縮したいのであれば、どのくらい短縮したいのか、それを秒で測定するのか、パーセンテージで測定するのか、必要なベースラインデータはあるのか、などを確認します。パイロットプログラムでは、成果をすばやく印象的に提示し、その価値を定量化できれば、非常に効果的に予測分析の事例の正当性を証明できます。「処理時間が32%短縮され、従業員1人当たり週平均18時間の節約につながった」という説明は、「処理時間が大幅に最適化された」と言うよりはるかに効果的に聞こえます。
結論

予測分析は未来であり、そして現在である

予測分析はもはや新しい科学ではありません。あらゆる規模の企業や組織が、ビジネス上の最大の問題を解決するために使用している実用的なツールです。選択肢の検討段階から既存の実装の微調整まで、予測分析の導入がどの程度進んでいるかに関係なく、この目まぐるしい分野の変化を常に把握しておくことが不可欠です。

組織は複雑で無秩序だったこれまでのデータを、リスクや障害ではなく機会へと変えるアプローチを必要としています。そこで登場するのがプロセスマイニングです。プロセスマイニングは、何より、ばらばらで一見無関係な情報を分析して関連付け、弱点を特定してすばやく行動を起こすための優れた方法と言えます。スプレッドシート上のプロセスの問題を解決するために数時間、数日、あるいは数週間を無駄にする代わりに、適切なプロセスマイニングツールを導入すれば、データをより効果的に使用して、ビジネス価値を高めることができます。組織内の無秩序なデータに取り組むのは骨の折れる作業に思えるかもしれませんが、今すぐ実行に移すことで将来的に多くの恩恵にあずかることになります。

予測分析の詳細、および予測分析をITインフラストラクチャに適用する方法については、「インフラ監視:予測と防止の基本戦略」および「リアクティブから予測的ITへ」をダウンロードしてご覧ください。