i-Learning 株式会社アイ・ラーニング

i-Learning 株式会社アイ・ラーニング



コラム第7回「クラスタリング」


こんにちは、長谷川です。
第7回は、クラスタリングについてお話します。

 ■ [ クラスタリング ]

クラスタ分析は、“対象”のロールを持たない教師なしモデルです。そのためクラスタリングの結果が正しいかどうか判断することができません。そこで、クラスタの結果を見る際には、作成されたクラスタの特徴を把握する必要があります。


クラスタ分析は、“入力”に設定したフィールドから似た特徴を持つグループ(クラスタ)を作成する分析手法です。クラスタ分析の結果、分類されたレコードのクラスタの特徴を探索し、プロファイルを行います。

IBM SPSS Modelerでは、プロファイルを行う作業が作成されたモデルナゲットで可能です。
作成されたモデルナゲットをブラウズすることで、テーブルやグラフが作成されます。また、モデルナゲット内にクラスタの名前や説明を書き込むことができます。


クラスタのモデルナゲットをブラウズ

このように、モデルナゲット内でクラスタの特徴を把握することができます。

作成されたモデルナゲットをストリームに通すことで、レコード内にクラスタ番号が入力されます。このクラスタ番号を使用して、データの探索を行うこともできます。
たとえば、クラスタ番号を使って連続値をレコード集計し、クラスタごとの平均値のテーブルを作成し比較することができます。カテゴリ値とクラスタ番号でクロス集計表を作り、クラスタ間の割合を比較することもできます。他にも、散布図を使ってもクラスタ間の特徴を視覚化することができます。


連続型データとクラスタの関係をプロット(2つの連続型データとクラスタ)

このようにクラスタ分析は、レコードをグループ化した後にデータの探索を行って、クラスタのプロファイルを行うことが非常に重要です。



関連講座