i-Learning 株式会社アイ・ラーニング

i-Learning 株式会社アイ・ラーニング



コラム 第9回「CRISP-DM」


こんにちは、長谷川です。
第9回は、CRISP-DM(CRoss-Industry Standard Process for Data Mining)についてお話します。

 ■ [ CRISP-DM(CRoss-Industry Standard Process for Data Mining) ]

CRISP-DMは、データマイニングを行うためのプロセスモデルです。CRISP-DMに従ってデータ分析プロジェクトを進めることで、データマイニングを成功へ導くことができます。CRISP-DMには6つのフェーズがあり、それぞれのフェーズは、ビジネスの理解、データの理解、データの準備、モデル作成、評価、展開/共有、です。

6つのフェーズは、以下になります。

  • ビジネスの理解:ビジネスの目標の決定
  • データの理解:データの記述、データの調査、データの品質の検証
  • データの準備:データの選択、データのクリーニング、データの統合・構築
  • モデリング:モデリング手法の選択、テスト設計の生成、モデルの作成、モデルの評価
  • 評価:結果の評価、プロセスの見直し、次のステップの決定
  • 展開・共有:モデル導入の計画、モニタリングとメンテナンスの計画、最終レポートの作成
以上の6つのフェーズになりますが、それぞれのフェーズが独立したものではなく、お互いに関連しながら分析を進めていきます。また上から順に進めていくだけでなく、互いに行き来しながら作業を進めます。

まず、ビジネス上の目標・目的を決め、現状を把握し、最終的な成功の基準なども決めます。
次に現在のデータベース内にはどのようなデータがあるのかを理解し、データの準備を進めていきます。
次に、データベースからデータを統合し、次のモデル作成のためのデータの準備を進めます。
データが用意できれば、モデル作成を行います。モデル作成では、1つのモデルを作るだけではなく、複数のモデルを作り比較し精度の評価を行います。またデータの派生を行い、モデルを再構築し精度を評価します。
モデルができれば、ビジネス上の評価を行います。当初想定していたビジネス上の目標・目的をどの程度達成したかを評価します。
ビジネス上の評価ができれば、現状の問題を解決することができるように、モデルの展開を行います。モデル展開で、システムへの導入や導入計画、導入後のモニタリングやメンテナンスを行います。

プロジェクトはCRISP-DMに沿って進めますが、下の図にあるようにプロジェクトは循環しています。展開後もプロセスの中で明らかになった問題があれば、次のサイクルでビジネス上の問題を解決します。その際に、前のプロセスでの経験を利用することになります。




IBM SPSS Modelerのプロジェクト領域:プロジェクト単位でフォルダに保存します。



関連講座