どんな大量のデータでも、どんな計算でもできる技術ができた今、何を計算すべきかと考えると、統計解析以外にはあり得ない。そしてもし
「統計解析」という地味な言葉がお題目として魅力的でないのならば、「ビッグデータ」とか「ビジネスインテリジェンス」といった流行り言葉を
生み出せばいいのだ。おそらく今、こうした流行り言葉と統計学への注目が高まっているのは、そういう理由なのではないかと私は思う。
・データマイニング、機械学習、人工知能、自然言語処理
・分析、統計――特にウェブ分析、A/Bテスト、競合分析
"I keep saying the sexy job in the next ten years will be statisticians."
(「僕はこれからの10年で最もイケてる職業は統計家だろうって言い続けてるんだ。」Googleのチーフエコノミスト、ハル・ヴァリアンの言葉)
ITという強力なパートナーを手に入れ、すべての学問分野を横断し、世界のいたるところで、そして人生のいたる瞬間で、知りたいと望む問い
に対して最善の答えを与えるようになった・・・
だから、『統計学が最強の学問になった』と、この著者はそんな単純に言い切ってしまおうとしているわけではない。 彼らは果たしてデータがビッグであること、あるいはデータをビッグなまま解析することが、どれだけの価値を生むのかどうか、果たして投資する
コストに見合うだけのベネフィットが得られるのかどうか、わかっているのだろうか。
例えば10万人の顧客データに対する全数調査の結果、その正解が70%であるとわかったとして、サンプル数が100名分しかなければ、
「正解は51〜89%の間にある」と解釈するしかないが、もしサンプル数が8000名を超えれば、「正解は68〜72%と考えてほぼ間違いない」
と断言できていたことになる。
つまり、適切なサンプリングは情報コストを激減させるのであり、「まず正しい判断に必要な最小十分のデータを扱うこと」こそが、
このビッグデータ時代を生き抜くための統計学の知恵だというのである。 データ分析において重要なのは、「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」
という視点だ。
アンケートの回答結果を見ると「とてもそう思う」と答えた人が何%でした・・・という「集計結果」には、「何となく現状を把握した気になる」
という以上の意味はない。
・何かの要因が変化すれば利益は向上するのか?
・そうした変化を起こすような行動は実際に可能なのか?
・変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
という「3つの問い」の答えられなければ、集めたデータを解析して、「ビジネスにおける具体的な行動に繋げる」ことはできない。
「クロス集計」「ランダム化」「回帰分析」・・・
「実際には何の差もないのに誤差や偶然によってたまたまデータのような差が生じる確率」(p値)を理解し、その因果関係は「誤差」を考慮した
うえでも意味がある結果と言えるかどうか、という統計学の考え方さえ身につけてしまえば・・・、 なぜ統計学は最強の武器になるのだろうか?
その答えを一言で言えば、どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ。