こんにちは、長谷川です。
第9回は、CRISP-DM(CRoss-Industry Standard Process for Data Mining)についてお話します。
■ [ CRISP-DM(CRoss-Industry Standard Process for Data Mining) ] |
CRISP-DMは、データマイニングを行うためのプロセスモデルです。CRISP-DMに従ってデータ分析プロジェクトを進めることで、データマイニングを成功へ導くことができます。CRISP-DMには6つのフェーズがあり、それぞれのフェーズは、ビジネスの理解、データの理解、データの準備、モデル作成、評価、展開/共有、です。
6つのフェーズは、以下になります。
まず、ビジネス上の目標・目的を決め、現状を把握し、最終的な成功の基準なども決めます。
次に現在のデータベース内にはどのようなデータがあるのかを理解し、データの準備を進めていきます。
次に、データベースからデータを統合し、次のモデル作成のためのデータの準備を進めます。
データが用意できれば、モデル作成を行います。モデル作成では、1つのモデルを作るだけではなく、複数のモデルを作り比較し精度の評価を行います。またデータの派生を行い、モデルを再構築し精度を評価します。
モデルができれば、ビジネス上の評価を行います。当初想定していたビジネス上の目標・目的をどの程度達成したかを評価します。
ビジネス上の評価ができれば、現状の問題を解決することができるように、モデルの展開を行います。モデル展開で、システムへの導入や導入計画、導入後のモニタリングやメンテナンスを行います。
プロジェクトはCRISP-DMに沿って進めますが、下の図にあるようにプロジェクトは循環しています。展開後もプロセスの中で明らかになった問題があれば、次のサイクルでビジネス上の問題を解決します。その際に、前のプロセスでの経験を利用することになります。
IBM SPSS Modelerのプロジェクト領域:プロジェクト単位でフォルダに保存します。