マシンデータの価値を引き出して、セキュリティ運用に役立つ新たなインサイトを獲得しましょう。
公開日:2021年1月9日
予測モデリングとは、既知の結果を使用して、予測分析に使用できる統計モデルを作成したり、将来の行動を予測したりするプロセスです。これは、「次に起こりそうなことは何か?」という質問に答えようとするデータマイニングの1分野である予測分析ツールです。
デジタル化により、ほぼすべての業界で膨大な量のリアルタイムデータが生み出されています。このデータを利用して過去のイベントを分析することで、財務リスク、機械の故障、顧客の行動など、未来のイベントを予測できます。しかし、デジタル製品によって生成されるデータは構造化されていない(所定の形式に整えられていない)ことが多いため、人間が分析するには複雑すぎます。代わりに、企業は機械学習アルゴリズムを使用した予測モデリングツールによって、将来起こりそうなイベントを示唆するデータのパターンを解析および特定します。
この未来を占う「水晶玉」の能力は企業のあらゆる領域で応用されています。企業は予測モデリングを使用して、業務の効率化、製品の迅速な市場投入、顧客との関係改善など、さまざまなことを実現しています。IT運用やソフトウェア開発では特に強力なツールとして、システム障害やアプリケーションの停止などの問題を予測するのに役立っています。
この記事では、予測モデリングの仕組み、予測モデリングのさまざまな手法、予測分析のメリット、そしてそれぞれの組織に適した予測モデルの選び方についてご紹介します。
予測分析とは?
予測分析とは、過去の行動パターンを特定し、将来の結果を予測することを目的として、大量のデータに数理モデルを適用することです。この手法では、データ収集、データマイニング、機械学習、統計アルゴリズムを組み合わせて「予測的」要素を提供します。
予測分析は、次のような一連の分析アプローチの1つです。
- 記述的分析:最も基本的な分析手法である記述的分析は、問題を特定し、「何が起こったのか?」という質問に答えます。しかし、何かが起こった理由を知ることはできないため、通常は1つまたは複数の別の手法と組み合わせて使用します。
- 診断的分析:診断的分析は、記述的分析が終わったところから開始し、相関付けを行うことで何かが起こった理由を説明します。
- 予測的分析:予測分析は、履歴データを取得し、将来起こりうるイベントを示すパターンを特定します。
- 処方的分析:最も高度な手法である処方的分析は、問題を解決または防止するためにどのような行動を取るべきかを提案します。
記述的分析ツールや診断的分析ツールは、データサイエンティストが現在のイベントについて事実に基づいた意思決定を行う場合に非常に有効ですが、それだけでは十分ではありません。企業が競争力を高めるためには、トレンドや問題、およびその他のイベントを予測できる必要があります。予測分析は記述的分析と診断的分析に基づく分析であり、データ出力からパターンを見出すことで、起こりうる結果とその可能性を予測します。これによって企業は正確な計画を策定してリスクを回避または軽減し、選択肢を迅速に評価し、自信を持ってビジネス上の意思決定を行うことができます。
予測分析は、小売業者が長期的な顧客価値を予測したり、医療従事者が最も効果的な治療方針を決定したり、教師がより個人的な対応を必要とする生徒を特定したりするなど、さまざまなユースケースに利用できます。
特にIT分野では、予測分析が大きな変革をもたらしています。仮想化、クラウド、IoT (モノのインターネット)などの技術の進歩によってアーキテクチャが複雑化したことで、理解できるデータの量が飛躍的に増加し、問題の診断や解決に長い時間がかかるようになりました。予測分析は、ビッグデータとAI (人工知能)を活用して、これらの問題を克服します。パターンを特定することで、パフォーマンスの問題、ネットワークの停止、容量不足、セキュリティ侵害、その他多くのインフラの問題を予測できるようになり、パフォーマンスの改善、ダウンタイムの削減、インフラ全体の回復力の向上につなげることができます。
予測分析モデルの仕組み
予測分析モデルでは、ビジネスに関連するデータセットに対して機械学習アルゴリズムが実行されます。予測モデルの構築は段階的なプロセスであり、まずは明確なビジネス目標の定義から始まります。多くの場合、この目標は質問の形で定義され、これを基にプロジェクトの範囲と適切な予測モデルの種類を決定します。それに続いて、以下に示す一連の手順を実行します。
- 統計分析用の履歴データを準備する。ほとんどの組織では、データはデータウェアハウス、オンラインデータベース、コネクテッドデバイスなどの多くのソースに分散しています。これらのデータを収集し、重複、欠落、破損のあるデータや不正確なデータを取り除くために「クレンジング」したあと、分析のために所定の形式に整える必要があります。
- データをトレーニングデータとテストデータの2つのデータセットに分割する。トレーニングデータとは、既知の結果に相当するデータです。このデータが機械学習アルゴリズムに入力されることで、新しいデータに基づく評価や予測を行えるようになります。テストデータは、モデルが正確な予測を行えるかどうかを検証するために使用します。
- データセットに対して1つ以上のアルゴリズムを実行する。適切なモデルの種類とアルゴリズムが決まったら、予測モデルを構築して導入します。
予測モデリングは反復的なプロセスです。トレーニングモデルを構築して導入したあとは、そのパフォーマンスを監視し、改善する必要があります。つまり、新しいデータによる更新、トレーニング、評価などの管理を継続的に行い、最新の状態を維持する必要があります。
予測モデリングのさまざまな手法
予測モデリングにはいくつかの一般的な手法があり、それらは回帰分析と分類分析に類別できます。回帰分析では、従属変数(行動)といくつかの独立変数(結果)を調べ、それらの間の関係の強さを評価します。これは、傾向の予測、特定の行動による影響の予測、行動と結果に相関性があるかどうかの判断を行うために使用できます。回帰分析を使用すると決めたら、いくつかの種類から選ぶことができます。特に一般的なものは次のとおりです。
- 単純線形回帰:回帰分析の最も基本的な形式である線形回帰は、2つの変数の間の関係を明らかにします。簡単な例として、店舗は線形回帰を使用して、販売員の人数と売上高の関係を調べることができます。
- 多重線形回帰:多重線形回帰を使用すると、従属変数と各独立変数の間の関係を明らかにできます。医療研究者であれば、この手法によって、たとえば喫煙、食事、運動などの要因が心疾患の進行にどのような影響を及ぼすかを調べることができます。
- ロジスティック回帰:このタイプの回帰分析は、一連の要因によってあるイベントが発生する、または発生しない可能性を判断するために使用されます。ある融資申請者が債務不履行になるかどうかを銀行が予測しようとするのは、ロジスティック回帰の一例です。
- リッジ回帰:この手法は、独立変数間の相関度が高い多重線形回帰データセットを分析するために使用されます。
分類分析では、より正確な分析のためにデータをカテゴリ別に分類します。これには、次のようなさまざまな数学的手法が使用されます。
- 判定ツリー:この手法は、意思決定プロセスを再現するもので、1つの質問やアイデアから出発し、意思決定に至るまでの「分岐」プロセスを通じて、さまざまな行動方針と、それによって生じうる効果を調べます。
- ニューラルネットワーク:人間の脳をモデルにしたこの手法は、データをクラスタリングして分類することでパターンを認識し、複雑すぎて他の手法では扱えないような傾向を識別することができます。ユーザーの過去の購入に基づいて製品を推薦する小売サイトは、ニューラルネットワークの活用例の1つです。
処方的モデリングの概要と予測モデリングとの違い
処方的モデリングとは、データを分析して、行動をリアルタイムで提案する手法です。基本的には、他の分析モデルによって生成されたインサイトに基づいて、利用可能なリソース、過去と現在のパフォーマンス、潜在的な結果を検討し、次に実行するべきアクションを提案します。たとえば、IT分野における処方的モデリングでは、監視や保守のデータに基づいてインフラの改善を提案し、さらには事前に記録されたスクリプトに従ってシステム自身が必要な調整を行えるようにすることもできます。
処方的分析は予測分析を拡張したものです。予測分析では、どのような問題が、いつ、なぜ起こりそうかを知ることができますが、処方的分析はさらに一歩踏み込んで、その問題を解決するために実行できる具体的なアクションを提示します。どちらの分析でも、情報に基づいた的確な意思決定を行うことができますが、処方的分析ではデータから最大限の価値を引き出すことができ、短期的にも長期的にもプロセスとシステムを最適化できます。
予測分析モデルの種類
予測分析モデルにはいくつかの種類があります。ほとんどは特定の用途向けに設計されていますが、中にはさまざまな状況で使用できるものもあります。具体的には次のようなものがあります。
- 予測モデル:これはおそらく最も一般的な予測分析モデルです。履歴データから学習して新しいデータの値を推定します。予測モデルを使用すると、たとえば、カスタマーサービス担当者が1日に処理できる電話の件数や、小売業者が次の販売期間にベストセラーを何冊注文するべきかなどを判断できます。
- 分類モデル:このモデルは、履歴データを使用してクエリーと応答のための情報を分類し、幅広い分析を提供することで、的確なアクションを実行できるよう支援します。このモデルは幅広い業界で利用されており、「この融資申請者が債務不履行になる可能性があるか?」といった「はい/いいえ」で答えられる質問に回答するのに最適です。
- クラスタリングモデル:このモデルは、共通の属性でデータを分類します。一般的な用途の1つである顧客セグメンテーションでは、このモデルを使用して、ビジネスの顧客データを共通の属性や行動でクラスター化できます。クラスタリングモデルでは、ハードとソフトの2種類のクラスタリングを使用します。ハードクラスタリングでは、データポイントがあるカテゴリに属するか属さないかのどちらかです。ソフトクラスタリングでは、各データポイントを個別のクラスターに入れるのではなく、あるポイントが各クラスターに属する確率を割り当てます。
- 異常値モデル:異常値モデルは、データセット内の通常とは異なるエントリーを特定して分析するもので、異常を見逃すことが企業にとって大きな損害につながる可能性がある金融や小売などの分野で一般的に使用されます。たとえば、金額、時間、場所、購入履歴、購買特性などを評価して、不正なトランザクションを特定できます。
- 時系列モデル:このモデルは、時間を入力パラメーターとして使用することで、特定の期間のトレンドを予測します。たとえば、コールセンターはこのモデルを使用して、過去3カ月間に受けたサポートコール数に基づいて、今後1カ月間に予想されるサポートコール数を判断できます。
適切な予測モデルを選択する方法
予測モデルを選択する際に考慮すべき点がいくつかあります。
- 達成しようとしていること:予測モデルは、過去のイベントに基づいて将来のイベントを予測するのに適しています。分類モデルは、起こりうる結果を探ることで重要な意思決定に役立てようとする場合に適しています。適切なモデルは、データから何を知ろうとしているかに大きく左右されます。
- トレーニングデータの量:一般的に、トレーニングデータを多く集めるほど予測の信頼性は高まります。データが限られていたり、測定しようとしている対象がデータセット内にほとんど存在しなかったりする場合は、多くの変数を持つ大規模なデータセットの場合とは異なるアルゴリズムを使用する必要があるかもしれません。
- 出力の正確さと解釈のしやすさ:正確さとはモデルの予測の信頼性を指し、解釈のしやすさとは予測をいかに容易に理解できるかを指します。理想は、それぞれのバランスが取れていることです。
- トレーニングの時間:トレーニングデータが多いほど、アルゴリズムのトレーニングにかかる時間が長くなります。また、精度を高めようとすれば、トレーニング時間も長くなります。これら2つの要因は、多くの組織にとって、モデルを選択するうえで最も重要なものかもしれません。
- データの直線性:すべての関係が完全に直線的なわけではなく、複雑なデータ構造では、ニューラルネットワークのような手法に選択肢が絞られるかもしれません。
- 変数の数:データに変数が多いと、一部のアルゴリズムの実行速度が遅くなりトレーニング時間も長くなるため、モデルを選択する前にこの点を考慮に入れておく必要があります。
最終的には、データに対して複数の異なるアルゴリズムと予測モデルを実行し、結果を評価してニーズに最適な選択を行う必要があります。
予測モデリングがビジネスにもたらす価値
予測モデリングはビジネスにいくつかのメリットをもたらします。
- コストの削減:高い精度でプロセスを実行できる予測モデルを使用すると、そのプロセスを手動で実行するために必要な人員とリソースを再配分できます。
- 実用的なインサイト:予測分析は、効率の向上、運用の最適化、より多くの情報に基づく意思決定を可能にするインサイトを提供します。
- 対応の迅速化:システム障害、セキュリティインシデント、アプリケーションの停止など、どのようなイベントに直面している場合でも、予測分析は人間よりも迅速に対応でき、結果としてイベントの影響を軽減できます。
- 拡張性の向上:予測モデリングがもたらすスピードと自動化機能により、組織の拡張がより簡単かつ迅速になります。
予測モデリングが重要である理由
予測モデリングが重要なのは、業種を問わずあらゆるビジネスが、適切なビジネス上の意思決定を行うためにデータに依存しているからです。予測モデリングを利用すれば、検討中のアクションがもたらす最も可能性の高い結果が示されるため、自信を持って意思決定を行えるようになります。
予測モデリングのリスクと前提
データセットに基づいて数学的に実行される予測は、絶対確実なものではありません。一般的に、予測モデリングの問題はいくつかの要因に起因しています。1つ目は、優れたデータの欠如です。正確な予測を行うには、予測の基盤となる適切な変数が豊富に含まれた大規模なデータセットが必要です。多くの組織には、企業のすべてのデータを関連付け、情報を詳細に分析し、大規模なデータセットから実用的なインサイトを引き出せる強力なデータプラットフォームがないため、これを実現するのは容易ではありません。結果として、データサンプルが少なかったり不完全だったりするために、予測の信頼性が低下します。
効果的な予測モデリングにとってのもう1つの障害は、未来が過去と同じように続くという思い込みです。予測モデルは、履歴データを使って構築されます。しかし、行動は時間とともに変化することが多く、長い間使われていたモデルが突然無効になることもあります。異なる状況における新しい固有の変数は、それに対応した新たな行動やアプローチを導き出します。それは、以前のモデルでは必ずしも予測できないものかもしれません。そのため、予測モデルに基づいて正確な予測を行うためには、現在の行動に対応できるよう、予測モデルを常に新しいデータで更新しておく必要があります。
ビジネスにとってのモデルドリフトの意味
モデルドリフトとは、時間の経過とともにモデルの予測能力が低下する傾向を指します。これは通常、データの統計的な変化が原因であり、発見されないまま放置されると、不正確な予測を生み出し、ビジネスに悪影響を及ぼす可能性があります。
ビジネスにおける予測モデリングの信頼性
予測モデリングは優れたデータサイエンスですが、万能ではありません。たとえば、新型コロナウイルスの感染拡大や、それが消費者の行動をこれほどまでに変化させるということは、どのような予測モデルでも予測できなかったでしょう。そのようなごくまれな状況は別として、適切なソリューションと人員を配置し、新しいデータでモデルを継続的に更新している限り、予測モデリングはビジネス上の意思決定に必要な情報を提供する非常に効果的な方法です。
予測モデリングの導入方法
予測モデリングを導入するには、まず組織が解決したい問題を決定します。何を達成したいのかを明確にすることで、正確で有用な結果を得ることができます。一方、場当たり的なアプローチでは良い効果を期待できません。
次に、社内のスキルやテクノロジーの不足部分を評価します。複雑で手間のかかる作業の多くはソフトウェアソリューションが行いますが、予測モデリングを効果的に実行するには専門知識が必要です。分析に使用するデータを特定して準備するために必要な人員、ツール、インフラが整っていることを確認してください。
最後に、パイロットプロジェクトを実施します。このプロジェクトは、範囲が狭く、ビジネスクリティカルではないが、企業にとって重要なものであることが理想です。目標を明確にし、それを達成するためにどのようなメトリクスを使用するか、またどのように価値を定量化するかを決定します。最初の成功を収めたら、それを基盤としてより大規模な予測モデリングプロジェクトを構築できます。
予測モデリングは、あらゆる規模の組織が自信を持って効果的な意思決定を行うことを可能にする究極の分析ツールです。体系的なアプローチと適切なソフトウェアソリューションがあれば、予測モデリングの力を活用して、この上なく厄介なビジネス上の問題を解決し、新しい機会を発見できるようになります。
データ活用エッセンシャルガイド
あらゆる問題解決、意思決定、ビジネス戦略にデータを活用することで、最大限の価値を実現できます。この包括的なデータ活用ガイドでその方法をご確認ください。