こんにちは、長谷川です。
第5回は、モデリングについてお話します。
■ [ モデリング ] |
モデリングとは、複数のフィールドから作成される予測式やレコードのグループ化、あるいはフィールド間で関連するパターンを作成するものになります。このようなフィールド間の関連性からモデルを作成し、予測されるモデル式やグループ化、パターンや傾向性を発見するものになります。
モデルリングは、大きく3つに分けることができます。予測・判別(クラシフィケーション)、レコードのグループ化を行うクラスタリング(セグメンテーション)、パターンを発見するアソシエーション(連関)モデリングになります。
予測・判別では、データのロール(役割)設定で“対象”のロールを設定する必要があります。これが教師ありモデルと言われ、“対象”に対して“入力”に設定したロールで説明するモデルを作成します。統計解析で言う従属変数(目的変数や被説明変数)が“対象”のロールであり、“入力”のロールが独立変数(説明変数)になります。
クラスタリングの手法は、データのロールは“入力”のロールしか使用しません。これが教師なしモデルと言わるものです。“入力”に設定したフィールドのレコード(ケース)を元に、レコードのグループ化を行う手法です。
アソシエーションルールのモデルは、データのロールで“両方”が使える分析手法です。この“両方”とは、“入力”と“対象”のロールが使用できる意味です。フィールドで“入力”から“対象”のフィールドの関係をルール化する、または“両方”で設定したフィールド間の関係をルール化するモデルを作成します。
このように、複数フィールドの関係をロール(役割)でモデル化します。
モデリングの分類
次回以降のコラムで、各モデリング手法について書きます。