コラム

ビッグデータとリサーチ業界

もうひとつ理解が進んでいないビッグデータだが、少し考えてみた。
リサーチ業界にとってショッキングなのは「サーベイの命はあと数年」というものではないか。
ここでいうサーベイとは調査票を設計してデータを取りに行く行為を伴うリサーチ方法のことだろう。
ビッグデータの時代は、データはリサーチャーが収集するものではなく、自然にたまっていくものらしい。
特にインターネットの世界では、自分の行動を写真と共に記録・公開し続けているものもあるという。
どこで何をいくらで何のために買ったか、どう使ったかもれなくデータとなってタダで使えるというわけだ。
もちろんネットをやっている人が全員そんなことしているわけがなく、「分析」できるデータ少ないだろうが、これがクレジットカードデータとなれば話が違ってくる。
プライバシーや個人情報の問題を乗り越えれば、データは「収集から使用」に劇的に変わるかもしれない。
単純に考えれば、最も影響を受けるのがネットリサーチ会社だろうが、定性調査もＳＮＳのおしゃべりを大量に処理・分析することで「インタビュー」などというかったるい作業はいらなくなるかもしれない。
「聞き出す」という双方向の技術は必要はなく、巨大なおしゃべりをテキストマイニングする一方通行の処理・分析だけですむ、という世界らしい。

一応、ビッグデータの定義として、

定型・非定型データが混在（してもよくて）
極めて大量のデータが
時間経過とともに
収集作業なしで、（無料で？）

集まり、それをマイニング形式で分析する。ということでいいのかな？（自信なし）
スパコンの性能開発もビッグデータ分析を視野に入れているらしい。
よくわからないのが分析方法である。
データが巨大になると何か新しい方法が可能になるのだろうか？
マイニングといってもデータの

集計と分割（合計の作り方とクラス分け・クラスタリング）
大小の比較と並べ替え
相関関係、回帰、共起・継起関係

くらいしか思いつかないが、これとてデータが分析に耐えられないほどスモールであれば問題だが、巨大というほどビッグである必要があるのだろうか。（量が質に転化するのだろうか）
非定型データの典型はＳＮＳなどの書き込みデータになるが、これを前加工なしで分析して何か意味あるアウトプットが出るとは思えない。
気象データや遺伝子データはビッグデータ言うにふさわしいが、消費行動のデータがビッグになればなるほど価値が出るとは考えずらい。
結論は、もう少しジッとして様子をみるということかな。

2013,5