医療系分野において、文章で残したデータ、すなわち、質的(テキスト)データの分析を予定しています。
文章そのものがデータとなるような場合、よく行われるデータの加工の方法を教えてください。
アンケートの自由回答や文章のようなテキストデータはそのままの形では統計解析できません。そこで、0と1の2値を使って、定量化します。
具体的には、テキストデータから用語を抽出します。テキスト分析の世界では、抽出した用語をカテゴリと呼びます。そのカテゴリを変数として、その用語が登場したならば 1、登場しないときには 0として、定量化するのです。
IBM SPSS Text Analytics for Surveysを使用すると、簡単に0,1の2値データを作成することができます。