i-Learning 株式会社アイ・ラーニング

i-Learning 株式会社アイ・ラーニング



コラム 第10回「データ加工」


こんにちは、長谷川です。
第10回は、データ加工についてお話します。

 ■ [ データ加工 ]

データマイニングでは、データ加工が非常に重要です。このデータ加工は、CRISP-DMの6つのフェーズでいうとデータの準備の段階です。

基本的なデータの理解で行う操作では、データの読み込みからファイルの結合など、分析用データセットを作成するまでを行います。その後、分析対象のデータセットが作成されて、モデルを作成します。そのモデルを作成する段階のデータの操作・加工が重要となります。


データ加工:レコード設定パレット



データ加工:フィールド設定パレット


モデル作成の段階では、1回でモデルが出来上がるということはありません。モデルを作成すれば、そこからモデルを理解します。そこでモデルを理解し、さらなるモデル作成のためのデータ加工を行います。そこで、フィールド作成ノードで用意されている様々な“派生”の設定を活用します。


フィールド作成ノードの様々な派生

IBM SPSS Modelerでは様々なモデルを作ることができますが、重要となるのが作成されたモデルを理解し、データを派生させ、再度派生データをモデルへと投入し、モデルを再構築することです。データの派生を行うことで、モデルの精度を上げていくことができます。このため、データ加工の技術を身に着ける必要があります。細かなデータの操作や加工ができれば、様々な面からデータを見ることができます。また、データ加工を行うことでモデルを理解することも重要です。どのようにモデルが作成されたのか、理解することができます。そのことがデータの派生につながり、精度のいいモデルを作成することができます。
データ加工を行うことは、モデルを理解し、モデルに合うデータへと派生させることです。このことができれば、データマイニングは十分に行うことができる重要な要素になります。



関連講座