予測モデリング:これ1冊ですべてがわかる完全ガイド

予測モデリングについて、その定義から最新の用途まで、押さえておきたい事すべてを学びます。

定義:予測モデリングとは何ですか?

予測モデリングは、データや統計を使って結果をデータモデルで予測するプロセスです。これらのモデルを使用すると、スポーツ競技の結果やテレビ番組の視聴率から、テクノロジーの進歩や企業の収益まで、何でも予測できます。

予測モデリングは次のように呼ばれることもあります。

これらは同じ意味で用いられることがありますが、一般に「予測的アナリティクス」は予測モデリングの商業的応用を指し、「予測モデリング」はより広義または学術的に用いられます。この2つの用語のうち、予測モデリングの方が頻繁に使用されていることが下のGoogleトレンドチャートからわかります。機械学習も予測モデリングとは異なり、「統計的手法を使用してコンピューターが予測モデルを構築できるようにすること」と定義されます。実際には、機械学習と予測モデリングが同じ意味で用いられることが多くあります。しかし、機械学習は人工知能(AI)の一分野で、機械が示す知能を指します。

この記事では主に「予測モデリング」という言葉を使いますが、予測モデリング、予測的アナリティクス、予測分析、機械学習は同じ意味で用いられることがあります。

2004年以来、機械学習の検索は予測分析よりも人気となり、近年、機械学習は着実に検索数を伸ばしています。

概要

予測モデリングは、どんな問い合わせにも正確な洞察を提供して、ユーザーが予測を立てられるようにするので有用です。競争力を維持するには、未来の出来事や結果に対する大前提が正しいかどうかを問う洞察力を持つことが重要です。

多くの場合、アナリストは以下のような情報源からデータを収集して予測モデルにフィードします。

アナリティクス部門のリーダーは、予測モデリングのイニシアチブを組織の戦略目標と一致させなければなりません。例えば、コンピューターチップの製造元が、業界最大のトランジスター数を搭載したチップを2025年までに生産することを戦略的な優先事項に設定したとします。アナリストは、製品、地理、売上、関連するその他の傾向データをモデルにフィードすれば、予測モデルを構築して、トップに立つにはチップ1個あたり何個のトランジスターが必要かを予測できます。その他の情報源としては、トランジスター集積密度が最大のチップ、コンピューター性能の商業的需要、チップ製造元とハードウェア製造元との戦略的提携に関するデータなどがあります。イニシアチブが動き出すと、アナリストはバックワードルッキング分析を実施して、予測モデルの精度とイニシアチブの成功を評価できます。

アナリストはコンピューターが予測を生成して仮説検証を出力できるように、モデルに合わせてデータを編成します。BIツールはダッシュボード、ビジュアリゼーション、レポートの形式で洞察を提供します。継続的に改善するためのプロセスを設ける必要があります。以下は、予測モデルを業務の現場に組み込むときに検討すべき重要事項です。

予測モデリングとデータアナリティクス

4種類のデータアナリティクスのうち、予測モデリングは予測的分析のカテゴリに最も密接に関連しています。4種類のデータアナリティクス:

記述的アナリティクス

記述的アナリティクスはデータを記述します。例えば、ソフトウェア・アズ・ア・サービス(サース、SaaS)会社がライセンスを第2四半期に2,000、第1四半期に1,000販売したとします。記述的アナリティクスは、第1四半期と第2四半期にライセンスがいくつ販売されたかなどの問い合わせに回答します。

診断的アナリティクス

診断的アナリティクスは、記述的アナリティクスの結果の裏にある原因を明らかにします。上の例を用いると、診断的アナリティクスはデータを一歩先へ進めます。データアナリストは四半期ごとのソフトウェアライセンスの売上を掘り下げて、各地区内の販売活動とマーケティング活動を調べ、それを売上の伸びと比較することができます。また、売り上げの伸びが営業社員の働きによるものか、特定の業界内での関心が高まった結果かも調べることができます。

予測的アナリティクス

予測的アナリティクスは、機械学習やデータマイニングなどの手法を利用して、次に何が起こるかを予測します。未来を予言することはできませんが、既存のデータを見て、起こり得る結果を判断できます。データアナリストは結果を予測できる十分なデータ量を入手した後、予測モデルを構築できます。予測的アナリティクスはデータマイニングとは異なります。データマイニングは変数間の隠れた関係の発見に焦点を当てますが、予測アナリティクスはモデルを適用して起こり得る結果を判断します。例えばSaaSの会社は、各地区の過去の売上データとマーケティング支出の比較をモデル化して、マーケティングの支出に基づく今後の収益の予測モデルを作成することが可能です。

処方的アナリティクス

処方的アナリティクスは最終的なステップで、予測結果に基づいて提案を導き出します。予測モデルが作成されると、過去のデータ、外部のデータソース、機械学習のアルゴリズムなどに基づいてアクション(行動)を推奨できます。

用途

HRアナリティクス

予測モデリングは、社員の採用から維持まで、HRアナリティクスの分野で多くの用途があります。人事担当者は予測モデリングを使用して、人員配置計画、業績管理など、HRの戦略経営層のために重要な決定を下すことができます。

予測モデリングは、人事担当者が様々な重要事項を予測する場合に役立ちます。以下は、HRアナリティクスで予測モデリングが使用される一般的な例です。

雇用主はよく、予測指標(PI)を使って、採用候補者や現職社員の対人関係要因(支配性、外向性、忍耐力、形式性、決断力、熱意など)を評価します。時間制限のない自己評価と予測モデリングを活用して、会社に最も合う候補者を見つけたり、社内の管理職を指名したりします。

予測モデルが正確であれば、予測的妥当性があると言います。例えば、採用試験が将来の業績を正しく予測できる場合、それは予測的妥当性があります。

予測モデリングは、人事分野で競争力を維持するために欠かせない方法です。競合他社より情報優位に立つことによって、人事部の幹部は常に優秀な候補者を採用し、社員のニーズを事前に把握したり、ふさわしい人材を昇格させたりできます。また、成果に応じたインセンティブを設計して、有能な社員を確保できます。

顧客離脱の防止

顧客離脱の防止は、B2BとB2Cの両方の組織に共通するビジネスアナリティクスのユースケースです。どのようなビジネスでも、現在の顧客を満足させることが最も重要です。優良顧客が突如として会社の製品を購入しなくなった場合は、新しい顧客を見つけるか、他の既存客への販売を増やすなどの努力をして、それに代わる収益を得なければなりません。さらに、顧客獲得単価も比較的高く、新しい顧客は以前の顧客や現在の顧客より見つけにくいことから、顧客離脱はいっそう重要な優先事項になっています。幸運にも、企業は予測モデリングを使用して顧客の離脱を防ぐことができます。顧客の特定の行動(例えばカスタマーサービスへの連絡)、人口統計、セグメントの予測値など、十分なデータがあれば、顧客の離脱に最も大きく関与している予測因子を特定するモデルを作成できます。この情報を武器に、企業は特定の顧客グループ内で質の高い体験を提供したり、製品機能の不具合を修正したり、不満を表す顧客を特別優遇するなど、顧客離脱を防ぐために行動を起こすことができます。このユースケースは、堅牢かつ有効なモデルを作成できるだけの十分なデータ量もしくは顧客関係管理(CRM)体制が会社にある限り、様々な業界と製品セグメントに適用可能です。予測アナリティクスは企業に顧客の離脱を減らす道を与えることで、収益という大きな付加価値を提供できます。

医療診断

医療診断はヘルスケア分野の予測モデリングの最たる例の1つで、結果として既に大きな変化が起こっています。毎年膨大なデータ記録を使用している医療分野では、高精度なモデルを作成できるだけのデータ量があります。医療分野には予測モデリングのユースケースが多数ありますが、予測診断は既にこの分野に大きな影響を与えており、日進月歩で画期的な進歩を遂げています。その一例がイギリスの医療機器会社、QuantumMDxが製造した診断ツール、Q-Pocです。これは予測モデリングを使用して20分以内に診断を出力します。このような装置が幅広く導入されると、世界中で医療従事者が医療行為を行う方法に革命を起こし、誤診や待ち時間などの問題に取り組むことが可能になります。ヘルスケア分野における予測モデリングのもう一つの用途は、希少疾病の診断です。例えば、IBMは2016年にドイツ、マールブルクにある大学病院のUndiagnosed and Rare Diseases Centre(未診断疾患・希少疾病センター)との提携を発表しました。そこには、複数(多い場合は40人も)の医師の診察を受けた患者が、希少疾病を専門とする医療従事者に受診しに来ます。IBMに加えて、Googleも複数のイギリスの病院と提携して、同様のプロジェクトに取り組んでいます。希少疾患だけでなく一般医療の診断の向上によって、将来は年に数百万人の人々を救える可能性があります。

今では、予測モデリングとアルゴリズムを使用して診断を出力するシステムや装置が医療従事者の能力を超える場合もありますが、コンピューターが医師に取って代わる可能性は低いと思われます。しかし、予測診断モデリングの向上が医師の働き方を変える日が来ることは確かでしょう。自然言語のテクノロジーは、データの入力と処理、その後の予測に必要な時間を減らして、医療従事者の負担を軽減します。その結果、医師の仕事が診断から他に移行していく可能性があります。

予知保全

セールスやマーケティングの用途以外では、予測モデリングのユースケースの多くはコスト削減イニシアチブを中心に展開し、多くの業界ではこれが競争力の重要な源になっています。製造、自動車、特殊化学品、消費財、石油・ガス、公益事業などの業界は競争が激しいことから、コスト削減策を重視しています。これらの業界は資本集約的な傾向もあります。つまり、最終製品の生産に必要な資金の多くが装置や工場の費用に投資されます。予測モデリングは、こうした重要な資源の保守費用を節減する方法を解明できます。装置の使用に関するデータ、内部の映像データ、温度のデータなどを使って学習した予測モデルは、機械にメンテナンスが必要になる時期を判断できます。これらの業界の企業は、装置の誤作動や大規模な修理の問題を回避することによって、大幅な節約が可能になります。つまり予測モデルを利用すれば、積極的にメンテナンスを行なうことができるのです。

顧客生涯価値

セールスとマーケティングでは、予測モデリングの幅広いユースケースがあります。その一つは顧客が生涯にわたってもたらす総価値の分析と予測です。顧客の生涯価値を正確に予測できることは、業種を問わず重要です。今後5年間または10年間で、どの顧客が自分の店で一番お金を使うかを予測できるとしましょう。特典やロイヤルティプログラムや特別待遇は、それらの顧客を対象にした方がよいと思いませんか? 予測モデリングなら、顧客の生涯価値について意義深い洞察を提供できます。関連するデータが十分にあれば、予測モデルは顧客生涯価値の正確な予測を引き出すことができます。

財務・銀行取引

予測モデルと機械学習に備わる異常値検知は、金融機関が不正な取引を検出するために使用しています。これらの組織は、金額、時刻、位置情報などの因子に基づいて過去の支出パターンを調べ、正常な支出行動の基準を決定します。異常値があれば、組織に通知し、組織から顧客に警告を伝えて、その口座で次の取引が行われる前に、購入について確認できます。

物流の最適化n

コスト削減に関連する予測モデリングのもう一つの用途が物流の最適化です。配達のように、集中的な物流支援を要する業界では、予測モデリングで物流計画の負担を軽減し、コスト節約の調整を行って、従業員にリアルタイムのフィードバックを提供できます。例えば、予測モデルはトラックの配送ルートを最適化できます。これによって総走行距離の減少、燃料の効率化、配達時間の短縮が可能になるため、顧客満足度の向上にもつながります。一例を挙げると、ヨーロッパ市場を拠点とする運送会社は、予測モデリングを使用して燃費を15%カットできました。センサーが車両の状態とドライバーの行動に関するデータを収集し、燃費を最適化するための速度調整の方法をはじめ、最適な運転行動をモデルがドライバーに自動的に指示します。予測モデリングの物流への応用は、同様の業種の燃費とメンテナンスに大きな影響を与えると考えられます。

意思決定支援システム(DSS)

意思決定支援システムとは、問題の解決にあたる意思決定者向けに、データを分類、編成、提示するように設計された電子情報システムです。これらは財務ダッシュボードから、データオーバーレイを使用した地理空間マップまで、幅広い用途に使われています。予測モデリングは高度な意思決定支援システムで使用され、過去のデータに基づいて起こり得る様々な結果とその確率を意思決定者に提供します。人間は表形式よりも視覚的な表現を通した方が複雑な関連付けを学習しやすいことから、DSSをビジュアルアナリティクスの機能と組み合わせると、意思決定を迅速化できます。

予測モデルにはどんな種類がありますか?

大まかに言えば、予測モデルはパラメトリックとノンパラメトリックの2種類に分類されます。これらは専門用語のように聞こえますが、基本的な違いは、モデルの作成に使用される母集団の特性について、パラメトリックモデルの方がより多くの仮定を、より具体的に作成する点です。厳密に言えば、予測モデルには以下のような種類があります。

それぞれに特有の使用法があり、特定の問い合わせに回答したり、特定タイプのデータセットを使用したりします。モデルの種類によって手法や数学的な違いはありますが、各モデルの全体的な目標は類似し、過去の結果に関するデータに基づいて未来または未知の結果を予測することです。

予測モデルの利点は何ですか?

根本的には、予測モデルは会社の必要コストを大幅に削減して営業成果、環境的要因、競合他社の情報、市況などを予測します。以下に、予測モデリングを使用して価値を生み出す方法をいくつか紹介します。

予測モデリングの最大の課題は何ですか?

予測モデルと予測テクノロジーは大きな利点を約束していますが、それらの利点が滞りなく手に入るとは限りません。実際、予測モデリングには多くの課題があります。以下はその一部です。

予測モデリングの未来

予測モデリングの未来は、間違いなく人工知能と密接に関連しています。モデルの作成に関して言えば、コンピューティング能力が向上の一途をたどり、データ収集が急増して、新しいテクノロジーや方法が生まれるにつれ、コンピューターに大きな負荷がかかります。世界的な経営コンサルティング会社、McKinsey and Co. は最近、今後のトレンドについて調査を実施しました。以下はその要約です。

テクノロジーの進歩

近年のコンピューティング能力の進歩とデータ量の増加によって、予測モデリングのテクノロジーは飛躍的な進歩を遂げ、その影響度が増しています。予測アルゴリズムは多くの分野(とりわけコンピュータービジョン、複雑なゲーム、自然言語)で高度に洗練されてきています。

仕事の変化

インテリジェントなコンピューターが増えるにつれ、予測モデリングの仕事は、他の職業と同様に、新しく登場した予測テクノロジーに適応して変わっていきます。予測モデリングの仕事をする人々がいなくなる可能性は低いですが、その役割は新しい予測テクノロジーの特徴や機能を補完する方向にシフトしていくでしょう。新しい任務をこなすためには、新しい技術を習得する必要が生じます。

リスク軽減

予測テクノロジーの進歩は、商業的または科学的価値の創出という点で前途有望ですが、リスクの軽減も必要です。一部のリスクはデータのプライバシーとセキュリティに集中します。データ量の急激な増加に伴い、ハッカーからデータを保護し、プライバシー関連のその他の問題を減らす重要性も増していきます。さらに、リサーチャーは、固定観念や無意識の社会的偏見が予測モデルやアルゴリズムに紛れ込むリスクを指摘しています。これは政策立案者やテクノロジー関連の大企業にとって特に重要な問題です。

予測モデリングの限界

予測モデリングには数多くの価値と利点があるとは言え、確かに限界もあります。特定の条件が満たされない限り、予測モデリングはその潜在的価値を十分に発揮しない可能性があります。実際のところ、このような条件が満たされていなければ、予測モデルは従来の方法や一般的な社会通念以上の価値を提供することはできません。こうした限界を考慮したうえで、予測モデリングのイニシアチブから最大限の価値を得ることが重要です。ユースケース、価値の創造、限界について最近分析を実施したMcKinsey and Co.によると、以下のような課題があります。

データのラベル付け

特に、コンピューターが予測モデルを構築する機械学習では、データにラベルを付けて適切に分類する必要があります。このプロセスは不正確でエラーが多く、通常は大がかりな仕事です。しかし、モデルの構築に必要な作業であり、正しい分類とラベル付けが完了しなければ、生成された予測モデルは精度が低く、不適切な分類に起因する問題が生じます。

大量のトレーニングデータセットの入手

統計的手法が結果の予測に一貫して成功するには、基本原則、すなわち十分なサンプルサイズが満たされている必要があります。予測モデリング担当者がモデルの構築に必要なデータ量を十分に持っていない場合、生成されたモデルは使用されるデータ内のノイズに過度の影響を受けます。比較的小さいデータセットは当然ばらつきが多く(つまりノイズが多く)なる傾向があります。現在のところ、高精度のモデルを出力するために必要なレコード数は、数千から数百万とされています。サイズに加えて、使用されるデータは目標母集団の代表値でなければなりません。サンプルサイズが十分に大きければ、特異(異常)なケースも含め、モデルの精度を高める多様なレコードがデータに存在するはずです。

説明責任の問題

利用できるモデルや手法の複雑性と難易度が増すにつれ、モデルを分解して、特定の決定や予測が出力された理由を判断することが困難になります。モデルが取り込むデータレコードや変数が増えると、予測について説明できる要因が不明瞭になり、分野によっては大きな限界が生じます。重大な法的影響を伴う環境など、説明責任が義務づけられている業界やユースケースでは、プロセスと決定を文書化する必要があるため、複雑なモデルを使用する妨げになることがあります。この限界により、意思決定の透明性を確保すると同時に大量のデータと複雑性にも対処できる新たな手法の需要が高まる可能性があります。

学習の一般化可能性

一般化可能性とは、モデルが1つのユースケースから別のユースケースへと一般化していく能力を指します。一般化は外的妥当性とも呼ばれ、人間と違ってモデルは一般化しにくい傾向があります。通常、特定のユースケースのために構築されたモデルは、別のケースで使用すべきではありません。この問題の修正を試みるアプローチとして、転移学習のような手法もありますが、まだ開発段階で、一般化は予測モデリングの大きな限界として残っています。

データやアルゴリズムのバイアス(偏り)

技術的な問題というより、むしろ倫理的、哲学的な問題ですが、予測モデルを作成するリサーチャーや専門家は、使用するデータと除外するデータを選択するときに注意しなければならないという議論があります。過去のバイアスがデータの最下位で深く根付いていることがあるため、このようなバイアスに取り組もうとするときには細心の注意を払う必要があります。さもなければ、その影響が予測モデルによって未来へと継承される可能性があるからです。

Predictive Modeling Tools

Apache Hadoop

テクノロジー業界で黄色い象のロゴで知られるApache Hadoop(通称Hadoop)は、オープンソフトウェアユーティリティのコレクションで、大量のデータが関わるタスクにコンピューターのネットワークが連携して取り組むように設計されています。Hadoopは主にストレージおよび処理ユーティリティとして機能します。処理ユーティリティはMapReduceのプログラミングモデルです。Hadoopは、Apache Hadoopエコシステム内の多数の追加ソフトウェアパッケージを指すこともあります。以下のようなパッケージが含まれます。

Hadoopは予測モデリングの分野、特にビッグデータのストレージを必要とするモデルや問題にとって極めて有用かつ重要になっています。Hadoopエコシステム、特にMapReduce、Apache Hiveのようなパッケージのスキルや専門技術を持つ予測モデリング専門家は、それらのスキルに対し給与が割り増しされます。

R

Rは統計的コンピューティングとグラフィックス向けのオープンソースのプログラミング言語です。アナリストには、このツールで効率的に作業をするための技術的なスキルが必要になります。線形回帰、非線形モデリング、時系列テストなどの機能が含まれています。次のようなユースケースがあります。

Python

Pythonは汎用プログラミング向けに開発された高位プログラミング言語です。Rは統計に特化して構築されている一方、Pythonはデータマイニング、イメージング、データフローの性能に関してはRを上回ります。Rより汎用的で、他のプログラムとよく併用されます。通常、Pythonの方がRより簡単に学べ、タスクの自動化に使用すると効果を発揮します。

Microstrategy

MicroStrategyはエンタープライズアナリティクスとモビリティのプラットフォームで、R、Python、Google Analyticsが統合されています。60以上のソースコネクターを備えているので、異種のデータを組み合わせて洞察を得ることができます。このデータをデータビジュアリゼーションやダッシュボードに出力すると、即時に洞察を得て、組織全体で簡単に共有できるようになります。MicroStrategyには、300を超えるネイティブの分析機能を装備した予測的アナリティクスのほか、オープンソースやサードパーティの統計プログラムを含む高度な分析機能も搭載されています。以下に、いくつか例を挙げます。

予測モデリングのキャリア

データの激増、テクノロジーの進歩、実証された付加価値性能により、予測モデリングは今後数年間で高成長が見込まれる分野です。実は、IBMは2017年に、データサイエンスとアナリティクスの専門家に対する需要が2020年までに15%増えると予想していました。

多くの企業が予測モデリングをビジネスに適用する必要があることを理解している一方、現状では適切なスキルセットを持つ候補者が不足しています。そのため、企業は資格のある応募者を競合他社や他の仕事から引き抜くために、高い給与を提示してきました。資格を持つ候補者の数は増えてはいるものの、この職業に対する需要は急速に高まっています。

予測モデリングのキャリア

一般的な肩書き:

予測モデリング:どのようなスキルが必要ですか?

予測モデリング専門家の給与はどのくらいですか?

給与は候補者の経歴と会社のニーズによって異なりますが、データサイエンスのスキルは高収入につながります。高収入につながるスキルはMapReduce、Apache Hive、Apache Hadoopなどです。

Data Scientist Starting Salary

よくある質問

予測分析とは何ですか?
予測分析にはどのような例がありますか?
スコア化モデルとは何ですか?
iPhoneは予測モデリングをどのように使用していますか?
予測モデルとは何ですか?
予測分析はなぜ重要なのですか?