i-Learning 株式会社アイ・ラーニング

i-Learning 株式会社アイ・ラーニング



コラム 第4回「データの視覚化」


こんにちは、長谷川です。
前回のコラムではデータの件数や記述統計量について書きましたが、次はデータの視覚化についてです。

 ■ [ データの視覚化 ]

データの視覚化、つまりグラフで表現することですが、これも記述統計量と同様に、データの型ごとに表現が変わってきます。ですので、まずデータの型を確認します。

まず、カテゴリデータの場合、棒グラフや円グラフで表現します。棒グラフの場合には、カテゴリ間で比較したい場合に使用します。円グラフは、カテゴリ間を全体の割合で表現する場合に使用します。スケールデータの場合には、ヒストグラムで表現します。

  • 質的データ:棒グラフ、円グラフ
  • 量的データ:ヒストグラム


クラスタ棒グラフの例:性別間での結婚の幸福度の比較


次に、2つの変数を考える場合には、データ型ごとに3つのパターンがあります。カテゴリ間の組み合わせの場合、スケール間の組み合わせの場合、カテゴリとスケールの組み合わせの場合になります。それぞれの組み合わせで以下の視覚化があります。

  • 質×質:クラスタ棒グラフ(IBM SPSS Statistics)、WEBグラフ(IBM SPSS Modeler)
  • 量×量:散布図
  • 質×量:箱ひげ図、エラーバー


Webグラフの例:商品購入グラフ


データの型ごとにグラフで視覚的に表現し、データ間の関係性も表現することができます。グラフでは1つの変数の分布状況や2つ、あるいは3つの変数間の関係を表すことができます。つまり、2次元か3次元の関係を表現することができます。
そこで、3つや4つ以上の変数間の関係を見る場合には、どうするのでしょうか?それは、多次元の関係を示すモデル化を行います。これが多変量解析の手法や複数のフィールド間の関係を示すモデル化を行うことになります。
このモデルについては次回のコラムで書いていくことにします。



関連講座