i-Learning 株式会社アイ・ラーニング

i-Learning 株式会社アイ・ラーニング



コラム 第1回「分析のはじめ」


こんにちは、長谷川です。
これから何回かに分けてデータ解析についてのコラムを書いていきたいと思います。

今回は、
■ データ解析やデータマイニングがどのように発展してきたか、と
■ データマイニングのプロセスについて
です。



 ■ [ データマイニングとは ]

データマイニングは、大量データの中からパターン認識や統計的、数学的な手法によって、意味のある関係性や相関、パターンや傾向性などを発見するプロセスのことを言います。一連のパターンの発見、意味のある関係性を発見することであり、仮説検定を行うことだけではありません。
また、データについては大量に蓄積されたデータを想定しているので、データマイニングでは従来の統計解析よりも広い意味でのデータ解析を意味します。


 ■ [ データマイニングの歴史 ]

データマイニングは、従来の統計学とはある程度独立して発展してきました。
コンピュータ科学や人工知能の研究では、大規模なデータセットの中からパターンや傾向を探すことをはじめていきました。このことから、従来の統計学である比較的少ない標本をもとに母集団の状態を言い当てる仮説検定とは違うものになります。
データマイニングは、当初統計学とは別のところで発展してきましたが、現在では多くの統計の専門家も利用するようになりました。また、データマイニングは通常、従来の統計的手法よりも大規模なデータを扱うことから、統計的に有意である検定よりも、実用的な結果に重点をおく傾向があります。
また、データマイニングの発展は、大規模データベースの開発によるところもあります。高速で高性能のコンピュータ、ハードウェアの登場により、データマイニングが可能となりました。これにより過去には不可能であった分析や時間的に不可能であったアルゴリズムも実行可能となりました。


 ■ [ データマイニングの手法 ]

データマイニング手法では、繰り返し学習用データをあてはめて解を得る方法や、予測変数を探して解を得る方法があります。それに対し統計的手法は、比較的少ないデータを対象に想定されたものであり、現在のような大規模のデータベースを対象とするものではありませんでした。データベースやデータウェアハウスに格納されたデータを活用するということからKDD(Knowledge-Discovery in Databases)とも深い関連があります。


 ■ [ データマイニングのプロセス ]

上でも書いたようにデータマイニングは、パターンや傾向を発見するプロセスになります。このプロセスについて、Virtuous Cycle(Berry and Linoff, 2000)やCRISP-DMなどがあります。データマニングを行う上で、このプロセスをもとにして進めることが重要となります。このプロセスにおいて現在の位置を確認することや分析過程の全体の位置づけを確認できます。このプロセスをもとにデータマイニングをすすめることが、分析を成功へと導くことにつながります。

今回は、データマイニングについて書きましたが、次回はもう少し実際に分析をする点で重視することについて書いていきます。


関連講座