コラム
ビッグデータとデータサイエンティスト
5月の記事では結論は出せなかった「ビッグデータ」に関して一応の結論が出せた。
「マーケティングリサーチ(業界)にとっては何の影響も与えずに過ぎ去る(ブームは去る・去った)」が結論のようだ。
この結論は、「ビッグデータとはデータマイニングの別名に過ぎない」と言い換えることができる。
データマイニングは、「相関関係がわかっていない(仮説のない)データの塊りの中から、相関関係を導き出す」
分析手法で、リサーチ業界にそれなりのインパクトを与えた。
マーケティングリサーチは、長い間(今も)ある仮説を持って調査票を設計し、データを収集し、分析して、仮説検証や実態把握を行ってきていたが、そこに調査票(仮説)のない「集まったデータ」をそのまま(サンプリングせずに)分析にかければ、ある仮説(データ間の相関関係など)が導けるというのがデータマイニングであった。
データマイニングによって、従来のマーケティングリサーチは不要になる(市場の一部を食われる)などと言われたが、そんなことは起こらなかった。
ここでよく見ると、このデータマイニングの定義と、ビッグデータの定義はほとんど同じなのである。
(同じ幽霊に2度驚いているという滑稽な状況ともいえる)
調査設計なしで集まった(集まってしまった)データ、いわゆるビッグデータの最初はPOSデータではないだろうか。
POSデータをデータマイニングした結果の「紙おむつとビールの併買率が高い」という古い話題も今やビッグデータの分析事例として紹介されている。
ここで、ビッグデータに関してまとめると
- はっきりした定義がなかった。(だれでも、どんなデータでもビッグデータと言えた)
- 分析手法としても新しさはなかった。(要するにデータマイニングだった)
- データ量は多ければ多いほどよい、の根拠が示せなかった。
- 人々の生活の質を改善するものではなかった。(分析のための分析の要素が強かった)
- 方法論として、画期的なものではなかった。(従来の手法をリプレースするような要素はなかった)
ということになるだろう。
ビッグデータとセットでデータサイエンティストももてはやされたが、これは、「プログラムコードが書ける集計屋さん」でよいのではないか。
集計屋さんというとバカにしたような表現だが、もちろん統計学に明るく、(分析する)その分野の知識が豊富で、解析手法の開発(コードが書ける)ができるような人はめったにいない。
そういった人は今後、引く手あまたであることは間違いないが、それとビッグデータとは関係なさそうである。
2013,9