聞きかじりめも

主にC++やメディア処理技術などに関して気付いたことを書いていきます.ここが俺のメモ帳だ!

スクフェスで学ぶ確率・統計(検定編)

前回の記事では,スクフェスを題材にしてベイズ的アプローチで確率推定してみました.今回はデータ収集・推定した結果をもとに細かな検証をしてみたいと思います.実は前回ベイズ推定で事後確率分布まで求めているので,それを使って信頼区間を示せば検定なんてしなくてもいいんだけど,今回は勉強のためやってみます.

 

例題

メドフェスでは金報酬,銀報酬の出現確率を上昇させるアイテム「金銀報酬UP(以下金銀UP)」がある.このアイテムにどれほどの効果があるか確認せよ.なお,度数分布表は次の通りである.ちなみに,本データはラブカストーンを1個も使わずになるべくLPを漏らさないようにして計測した.

 

合計

金銀UPなし

4

38

90

132

金銀UPあり

4

49

73

126

理論

例題を噛み砕くと,

金銀UPを付けることによって確率が本当に変化するのか,変化するとしたらどれだけ変化するのか

という問いになる.即ち,金銀UPの有無による確率変動有意があるかどうかを調べる必要がある.最近ではこの種の検定を廃止しようとする動きがあるみたいだが,正しく理解して気をつけているなら問題無いはずだ(この議論の背景についてはおまけ参照).

 

統計学における検定(統計学的仮説検定)は,以下の4ステップで行われる.

  1. 本当に示したい事とは逆の仮説を帰無仮説として立てる.
  2. 有意水準を決定する.(大抵0.05,より厳しく見る場合は0.01)
  3. データを収集する.
  4. データと帰無仮説からp値を計算する.
  5. p値に基づいて帰無仮説を評価し,有意水準より小さければ帰無仮説を棄却する.

ここでp値とは,

帰無仮説が正しい場合に,観測データと同等,またはそれよりも極端なデータが得られる確率

である.つまり,p値が小さければ小さいほど,帰無仮説が正しいとする根拠が薄れるというわけだ.このように統計学的仮説検定は一種の背理法のような論法で進めていく.

やってみた

今回のケースでは1個のサンプルにつき金,銀,銅の3通りが考えられるので,「はい/いいえ」のようにカテゴリが2通りの際に使われる検定法は使えない.かといってより一般的なカイ2乗検定を使おうにも,金銀UPの有無によらずサンプル数に対して金報酬の出た数が少なすぎて使えない.試しに期待値を計算すると次の表の通りになる.計算式は,行合計×列合計÷全体合計である.

 

金銀UPなし

4.09

44.5

83.4

金銀UPあり

3.91

42.5

79.6

一般に,表中に期待値が5以下のマスが全体の25%以上ある場合は不適だといわれている(これをCochran’s ruleという).統計にあまり詳しくない私はここで困ってしまったが,この場合はどうやらFisherの正確検定を使えばよいとのこと.2x2でない場合のFisherの正確検定に関しては文献を探しても数式が載ってなかったので宿題としておいて,計算できるサイトがあったのでこちらで計算してみる.

http://aoki2.si.gunma-u.ac.jp/exact/fisher/fisher.cgi

 

結果,p=0.202であるため,有意水準としてよく使われる0.05を大幅に超えている.従って結論として,今回のデータからは金銀UPの有無による有意差は認められず,帰無仮説を棄却できない.つまり,「確定的に金銀UPに差があるとは言えない」ということになる.

ただし注意して欲しいのは,この結果は「金銀UPに意味はない」とは一言も言ってない(原理的に有意差検定で帰無仮説を積極的に肯定することはできない).検出力が低く,この程度のサンプル数では有意差を検出することができないという可能性がある.

従って「実際には差があるのにないと判定された(第2種の過誤)」可能性もあるため,一応,効果量も計算してみる(ちゃんと調べてないのでこのあたりの計算は怪しいです.間違ってたら指摘をお願いします).公式は次の通り.

f:id:Mzawa2:20150323070957p:plain

結果,d_g=0.10, d_s=2.38, d_c=2.37 であった.一般的にd>0.8なら効果大だと判断できるので,銀報酬と銅報酬に関しては相当な効果があったといえる.

 

ちなみにベイズ推定の結果,両者のDirichlet分布は次のようになった.比較しやすいように目盛りは合わせてある.

f:id:Mzawa2:20150323070225p:plain

f:id:Mzawa2:20150323070216p:plain

上が金銀UPなし,下が金銀UPありの場合の確率分布である.座標が報酬の確率,標高がその座標(確率)の尤もらしさを与える.有意差が検出されなかったとはいえ,確率分布の山はかなり違う場所にできている(これが効果量の大きさに反映されている).おおよそだが,銀報酬の確率は30%から40%に増加しているのではないかと推測できる.金報酬については殆ど違いがわからない.

結論

統計的に有意とは言えなかったが,金銀UPを導入することにより,銀報酬の確率に大きな効果があった.約30%から40%に上昇するものと思われる.

一方金報酬については,サンプル数が少なすぎるせいか,有意差も効果も見られなかった.逆に言えば,ラブカストーンを使わずにメドフェスをプレイするならば,金銀UPの効果は誤差の範囲内であろう.つまり,イベントを走る気がないならば,金報酬UPを目的にして金銀UPを使用するのは得策ではない.

 

…という結論になりますが,本当に我々が欲しいのは金報酬ではなく勧誘チケットです.勧誘チケットはごく低い確率で銀報酬からも出るらしいので,もしかしたら金銀UPに意味があるかもしれません.ただ全87回銀報酬が出て未だ一度も勧誘チケットが来てないので,ベイズ的に1/87以下であると推定できます(おそらく実質1%くらい?).この結果をどう捉えるかは皆さん次第です.

(2015/9/7追記:定量的な統計はとっていませんが、通算100回程度銀報酬を引いたところでやっと銀報酬から勧誘チケットが出てきました。実質1%程度というのは正しそうです。)

ただ,金銀UPは10万Gと高額に見えますが,これをつけることにより銀報酬の5万Gが出やすくなるので,実質もうちょっと低いです.Gが余ってる人は戯れにやってみると良いかもしれませんね.

 

 - ちなみに今回の検証では,金銀UPをつけた場合は勧誘チケット2枚,つけなかった場合は1枚も来ませんでした

 

おまけ:統計学的検定を行う際の注意点

ここは自分用メモなので読み飛ばしても一向に構いません.

 

統計学的仮説検定(有意差検定)は,心理学や医学,その他多くの分野の論文で昔から用いられている.しかし実に多くの人が誤って理解し誤った使い方をしているせいで従来から批判が多い.では何が問題なのだろうか.

 

第1の問題は,有意差検定で最も重要なp値がサンプル数にも依存するということである.実はサンプル数を増やせばp値をいくらでも小さくできる.従って,たとえば悪意ある医学研究者Oは次のようなことができる.

1)Oは開発した新薬によって細胞を変質することに成功したと論文で発表したい.そこで新薬を滴下した細胞と滴下しない細胞を比較することにしたが,有意差検定の結果p=0.07と帰無仮説を否定できない非常に微妙な値が出てしまった.困ったOはサンプル数を増やしてもう一度実験を行なったところ,p<0.05になったので安心し,新薬に効果ありと発表した.

2)Oの新薬を滴下した細胞と水を滴下した細胞とを比較したところ,予想外に水の細胞が変質してしまった.慌てて有意差検定を行なったら,水の有意差はp=0.10であった.今のところ有意水準を上回っているので,Oは他に理由をつけてサンプル数をこれで適切ということにした.

当然,こんな態度の論文にケツを拭く紙以上の価値はない.ちなみに1)でサンプル数を変更しなかった場合でもたまーにp値が有意水準を下回る時がある.その一例だけをもってきて効果ありとするのは,再現性を欠くという意味で全く科学的ではない(ちなみにこれが第1種の過誤の具体例である).

このp値とサンプル数との問題を回避するために,効果量をp値と共に示す,95%信頼区間を示す(信頼区間から外れていれば有意とすぐわかる),事前に検出力を計算して適切なサンプル数を見積もる,などの対策が挙げられる.

 

第2の問題は,帰無仮説が本質的に正しい場合というのを考えにくいということである.統計学を用いる対象というのは,物理学の対象のように数理モデルでは原因を説明できない程,全ての要素が互いに影響し合っているような複雑なシステムであることが多い.そんなシステムで完全に独立した因子なんて存在するのだろうか?

それを考慮すると,帰無仮説として大抵挙げられる「2群間の差が完全にゼロ」という仮定がいかに非現実的かが解るだろう.つまり多くの場合,p値をほぼ間違っていることが確かな仮説から計算していることになる.こんな非現実的な帰無仮説を棄却したところでなんの意味があるのだろうか?つまり批判として出てくるのは,「そりゃ何かを変えればちょっとは結果に影響出るだろうよ」である.

 

ちなみに今回のケースでは,スクフェスのシステムの中に確率を決めている何らかの定数があるはずなので,(スクフェスの運営があくどい場合は)帰無仮説が厳密に正しい可能性が捨てきれない.従って今回に限っては,帰無仮説として「金銀UPに全く効果がない」を立てての検証には意味がある.

 

参考文献

今すごく眠いのであとで載せます.ごめんなさい.