こんにちは、長谷川です。
第10回は、データ加工についてお話します。
■ [ データ加工 ] |
データマイニングでは、データ加工が非常に重要です。このデータ加工は、CRISP-DMの6つのフェーズでいうとデータの準備の段階です。
基本的なデータの理解で行う操作では、データの読み込みからファイルの結合など、分析用データセットを作成するまでを行います。その後、分析対象のデータセットが作成されて、モデルを作成します。そのモデルを作成する段階のデータの操作・加工が重要となります。
データ加工:レコード設定パレット
データ加工:フィールド設定パレット
モデル作成の段階では、1回でモデルが出来上がるということはありません。モデルを作成すれば、そこからモデルを理解します。そこでモデルを理解し、さらなるモデル作成のためのデータ加工を行います。そこで、フィールド作成ノードで用意されている様々な“派生”の設定を活用します。
フィールド作成ノードの様々な派生
IBM SPSS Modelerでは様々なモデルを作ることができますが、重要となるのが作成されたモデルを理解し、データを派生させ、再度派生データをモデルへと投入し、モデルを再構築することです。データの派生を行うことで、モデルの精度を上げていくことができます。このため、データ加工の技術を身に着ける必要があります。細かなデータの操作や加工ができれば、様々な面からデータを見ることができます。また、データ加工を行うことでモデルを理解することも重要です。どのようにモデルが作成されたのか、理解することができます。そのことがデータの派生につながり、精度のいいモデルを作成することができます。
データ加工を行うことは、モデルを理解し、モデルに合うデータへと派生させることです。このことができれば、データマイニングは十分に行うことができる重要な要素になります。
MLXQ3:IBM SPSS Modeler 入門2 データ加工