園山征夫のビジネスコラム 園山征夫のビジネスコラム 園山征夫のビジネスコラム

因果

第157回 相関と因果の関係に上手く付き合う(2)

Posted on 2015-05-28

前回の続きです。

 

ビッグデータの相関処理vs.因果の実験

 そうは言っても、現実に誰かが沢山の情報を生み出していますので、企業側もビッグデータを処理せざるをえなくなります。ここで予測との関連で思うことがあります。

 最近、あらゆるところでビッグデータの利用が始まっています。ある種の流行です。ここで我々が留意しなければならないのは、この分析は因果でなく相関をもとにした分析であることです。相関はデータの組み立て方、何と何を比べるかによって変化することです。

 従って、意味のある相関と意味のない相関との区別をする必要があります。それには何が何を起こしているのかの、因果を仮定し検証しないといけないことが多いはずです。

 これに比較して、実地の実験では、ビッグデータより深い所まで手が届くメリットがあります。画期的な細胞を発見したと称したSTAP細胞の事件も、論文に掲げるケースを実際の実験を繰り返して、因果の関係に嘘があることが立証されたと推測します。このように因果関係について良く考えをめぐらせてから実験で頼りになるデータが得られれば、結果に至る本当の原因を探ることに役立ちます。

 相関分析だけでなく、実際の実験の重要性も同時に認識しなければなりません。

 

データを読むセンス(感性)

 また、統計解析に振り回されず、データの本質的な意味を見極める力を養わなければなりません。データは同じものでも、見方により違う見え方をすることが多くあります。

 マーケッターに一番求められている力は、実はこの部分です。出てきたものが「何か違う、何か異質な臭いがする」と、感じるセンス(感性)があるか否かです。先週述べた格付け会社で予測をした担当者のケースでは、現実起きていることと出てきたものが何か違う、何故だろうと感じるセンスです。

 

限界の認識と学び

 このように、ビッグデータの相関をもとにしたモデルでは、あくまで相関関係に基づいた分析です。人間が何故その行動を起こしたかの因果の分析ではなく、現実を十分に捉えきれない限界があることを肝に銘じるべきです。

 あるゴルフ場では、ビジター顧客の増大で営業数字を上げるためにコンサルティング会社に手数料を支払い、ネット経由のビジター割引制度を数年前に導入し、顧客数の増大と売上の増加を図ってきました。そして一定の成果を上げてきました。

 しかし、果たして、諸々の目論見通りになったか否かをそろそろ検証するにあたり、これをデータの相関関係で分析するには限界があると考えます。意味のある相関と意味のないそれとを峻別するのが難しいと思われるからです。

 割引率との関係で、新規顧客は来場したが常連の顧客は来ていない、というデータがもし出てくるとすれば、クラブにとってこのゲームは長続きできないことを物語ります。極論すると、その方法だと永久に割引率を高め続けていくことになり、収入を量でカバーしようと定員オーバーでも来場させ、プレーがエンジョイできずに結果として来場者の減少し、クラブ経営の行きつくところが自明だからです。

 何故プレーヤーが来場し続ける行動を起こすかを探るべく、ある程度の常連顧客が訪問出来るような導線を設けて、しかも割引率の上下も含めた各種要因の原因群が、ゴルフ場が本当に享受したいと思う結果になっているかの因果の関係を実験(トライアル)も含めて分析しなければならない論理となるのではないでしょうか。

 相関分析による予測の難しさと地道な実験(トライアル)を含めた因果の関係の紐解きについて述べました。

 

 

第156回 相関と因果の関係に上手く付き合う(1)

Posted on 2015-05-21

 予測するのは、本当に難しいことです。会社内でも相関関係をベースとした予測に基づいて、将来のことをもっともらしく議論したこともありましたが、実際は難しかったと言うのが偽らざる本音です。

 

ソ連の崩壊の予測

 1991年、ソ連があっけなく崩壊しました。私は、相関分析をしたわけではありませんが、これを予測できませんでした。

 西側との冷戦時代を知っており、1960年代に米国と対峙するレベルの力を保持していたソ連が、あっけなく崩壊するとは想像だにしていませんでした。専門家も「絶対に起こらない」と予測していたことが、二十数年前、現実に起きたのです。

 マルクスは、資本主義が成熟すると、そこで崩壊が起こると説明していましたが、逆に本家本元のソ連が突然崩壊してしまったのです。

 

リーマンショックの予測

 2008年のリーマンショックも一般の人からすると突然起きました。リーマンブラザーズの経済破綻に端を発した金融危機です。

 この時も不思議なことに、専門家たる格付け会社が予測した債務担保証券は、向こう25年間でこの証券の払い不能(デフォルト)が発生する確率は低いと予想していたと、事後報道の記事で知りました。現実には不払いが発生し、世界の金融危機の発端となりました。

 予測の失敗は、適切なサンプルに基づいて予測をしなかったからと言われています。すなわち格付け会社は、住宅価格が上昇時していた1980年代のデータに基づいて向こう25年間を予測したようです。予測した時期には実際の住宅価格は下がり気味の状態だったのに、先行きも大丈夫とレポートした当時の予測者は、現実に発生したことをどう説明するのでしょうか。素人目にも如何なものかと思う予測の質です。

 違う状況のサンプルデータに基づいて、局面が全く違う状況を予測した報告書の情報を鵜呑みにして、まだ大丈夫だとの判断・行動をした一般の人がいたとしたら、余りにも可哀そうです。

 

ノイズがあるのは事実だけど・・・

 この批判に対して、予測する際はもっと不確実性を受け入れなければならないと、学者は言うかもしれません。すなわち、過去の住宅価格の状況のみから大胆な予測をするのではなく、データにノイズがあることを知り、現実に発生している今の局面をも包含する様々なアプローチを試みるべきであると。

 その通りです。一つの事象を違う角度から考える必要性を理解し、検証する方法に慎重すぎることはありません。しかし、一般の人にはレポートの背景などほとんど分かりません。唯一分かることは、多くの課題は本来予測困難かもしれないとの単純な認識です。

 我々一般人が世の中の情勢をみても、大半は意味のないノイズの情報ばかりです。そのようなノイズを、企業が大量に、シグナルとして世の中に発していることも理解しなければなりません。発信される情報が沢山あっても、その大半はノイズだとしたら本当は真実が増えているわけではないという単純なことを、我々は理解しなければなりません。