コラム
テキストマイニング
定量調査はフィールド(データ収集)部門がネットリサーチによって、データ解析部門が統計ソフトの無料化傾向によって劇的に合理化されてきている。
さらにビッグデータということでデータ収集も自動化され無料で大規模データが蓄積されてきている。
まだ、ブタ積み状態のデータも多いのでビッグデータによって新しい知見が得られることが期待できる、そうだ。
最も、ビッグデータはマーケティングリサーチの分類には入らないのだろう。
定性調査の技術革新は「ネットグルイン」にその萌芽があったようだが花開くことはなかった。
MROCもインサイト発見の画期的方法論と期待されたがこれといった成果は上がっていないようだ。
そこで、旧聞に属するがテキストマイニングに再度目を向けてみた。
10年近く前はフリーのソフトもなく、いくつかのソフトウェアのプレゼンを見ただけだった。
今回、いろいろググってみたら、フリーソフトも多数出回っていた。
その中で、「KH Coder」に注目してみた。(たまたま)
以下は、wikiのコメントの抜粋である。
KH Coderとは、テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのためのフリーソフトウェアである。
各種の検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。
さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。
また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。
多変量解析の具体的な手法としては、対応分析(数量化III類)・クラスター分析・多次元尺度構成法(MDS)・自己組織化マップ・共起ネットワーク・機械学習(ナイーブベイズ)などに対応している。
KH Coderを用いて行われた研究としては、アンケートの自由回答項目・新聞記事・インタビューデータなど様々なデータを分析した事例がある。
文中にあるように「計量テキスト分析」であれば、定量調査のOA・FAの書き抜きよりもインタビュー調査の発言録の分析にも向いているのではないかと考えた。
OA・FAのテキストマイニングは経験したが、発言録は本格的にやったことがない。
実験的に少しずつ進めて行きたい。
2013,7