俺の報告

RoomClipを運営するエンジニアの日報(多分)です。

日報 #64 - 意味ないけどCTRと二項分布

作業ばかりで大したことしてないと本当に書くことがないですね。
こういう日が少なくなるように意識する意味でも日報つけ続けます。
いや、ちょっと暑苦しい目標なので、適当に休みます。

今日とかはもうお休みですよ実際。
なので、完全閑話。

最近どっかで見た記事で、こんなんがありました。
「サイコロを6回ふって1が出る確率は、大体66%くらい」
えー直感より低いーわたしの年収も低い―
といったようなレスが沢山ついていました。
結構面白い話ですよね。
え?何も面白くない?
そーか、じゃぁこれならどうだ。

「1000回表示して5回クリックされる広告を、実際に1000回表示した時に5回クリックされる確率はいくつだ?」

どうだ、他人ごとじゃない気がしてこまいか。
要は、CTR0.5%の純広告が、マジで0.5%出る確率はどんなもんだ?
ってことですね。
即答で50%くらいって答えるような人とは仲良くなれないので、
そういう人は一旦ニョッキでも食べて待ってて下さい。

さて、これはとても簡単な二項分布なので、計算してみましょう。
0回クリック:(1-0.05/100)1000
1回クリック:1000C1 * (1-0.05/100)999 * (0.05/100)
2回クリック:…
と計算すると、大体0.5%ドンピシャなのは大体17%くらいで、下側累積確率が62%程度です。
つまり、0.5%を切る確率は45%くらいで、55%程度が0.5%以上ででるようです。
このサイトで、
http://keisan.casio.jp/exec/system/1161228843
成功回数5試行回数1000成功確率0.005で計算しました。

のるか、そるか、結構ままならないものです。
ま、当たり前ですよね。平均値より大きくでるか、低く出るかは、半分の確率じゃいと。
そもそも0.5%は期待値でもあるので、真ん中なのは当然ですね。
おかえり、よくわかってる人。
さて、ここで注意したいのは、 「ドンピシャ0.5%の確率はどんどん低くなるけど、その近傍になる確率はどんどん高くなりそう」
ということですね。大数の法則みたいな感じで。
これも当たり前です。
さて、なんでこんな分かりきったことをウダウダと言っているのかというと、
ある仮定をいれると「ドンピシャの確率がどんどん上昇するんだぜ!」っていうことです。
それは、nが有限で、pが固定という仮定です。
つまり、PVは在庫限界があって、CTRは全数検査できてしまった、という状況です。
真なるCTRの値がわかってしまった以上、
その在庫枠を購入するということは、どんどん分散が小さくなっていくことにほかなりません。
ちゃくちゃくと真なる値に「マジで」近づいているのだから。
もっと言えば、クリックにも在庫があると仮定したわけで、全部PV買っちゃえば値は必ず1つなわけです。

さて、この仮定に意味があるのか?と言われると大分苦しいです(笑
でも皆直感的には100万PVで3500クリックある広告があって、
imp保証10万PVを買いましょうってなったら、
「どのくらいバラつくかな?」って考えるでしょう?
これをさっきと同じn限界をおかない論法でやると、 PVが低ければ低いほど「ドンピシャの確率」が上昇したように見えちゃうのよ。
ま、もちろん0.45% 〜 0.55%の収まる確率をずっと眺めていればいいんだけど、、、
あぁやっぱり苦しいな。
でもね、本当にそうか気になったから実験してみたのよ。
100万PVあって、0.35%のクリックが必ず生じる広告があったとして、
それを1万PV買ってCTRを計測する作業を100回行って、
平均のCTRと標準偏差を計算する。
次に1万1000PVを買って同じことをやり、
1万2000PV、、、と10万PVまで増やしていった時、
CTRの平均の値と標準偏差はどう動くのかを、シミュレーションしてみました。
これ。

f:id:tom_rc:20141022005447p:plain

ま、そりゃさがるよね。
たくさん買えば買うほど、安定するよね。 っていうひどく当たり前の話をここまで引き伸ばす転送量の無駄遣いでした。