初めまして。耐火煉瓦工務店#65122と申します。
今回は歯車木工店#29915様が近年研究している「住民の購入失敗率」の調査について軽く調べた所、面白い結果が得られたため報告させて頂きます。ただし、筆者は数学に疎いため、何らかのミスがあるかもしれません。その場合はコメント欄にてご指摘いただけると助かります。
1. 先行研究のおさらい
予め歯車氏の住民コメントについての私見④に目を通しておくことを強く推奨します。また、歯車氏が述べているように街やアップデートによって結果が大きく変化する可能性があります。
上図は、歯車氏が集計したトパーズ郊外における各価格毎の住民購入失敗率、すなわち財布の確率分布を作成したもです。
このグラフは11000Gをピークとして全体的に右側に偏った形状をしています。このいびつな形状から、歯車氏も住民財布の分布が正規分布であると考えておらず、10000G以降は別の補正が入っているのではないかと考察されています。
2. 住民の財布分布に隠された謎?
ここで私は、「購入失敗確率に対して、何らかの"操作"をすることで財布の分布が正規分布になるのでは?」と考えてデータをこねくり回してみました。
今回の分析で実際に使用した数値は以下の通りです。
歯車氏が収集したデータから価格と失敗率のデータを抽出し、失敗率は0~1表記に変更しています。失敗率が0の時は0%の確率で失敗、0.5の時は50%の確率で失敗、という形です。
更に、この失敗率の常用対数をとったものが右端の数値です。常用対数の解説は割愛させて頂きますが、ここでは「失敗確率が10倍になると1増える値」「購入失敗確率が10%の時に-1、100%の時に0をとる値」とだけ考えて頂ければ(多分)大丈夫です。
このデータを分析していると、「住民の購入失敗確率」の対数と価格を単回帰分析した時に綺麗な直線関係が浮かんできました。
この直線関係はモデルとしては大変ざっくりとしたものです。しかしながら、グラフを見る限り法則として適用できるレベルには達しているのではないでしょうか。(統計的な説明は4節に回します)
このグラフを式に直すと、以下の通りになります。
log10(購入失敗確率) = -1.51×10^(-4)×(販売価格) - 1.75
このグラフを用いることで、現実的な住民財布の限界とある価格帯における住民の購入失敗確率を求めることができます。
例えばここでは横軸がほぼ0 = 購入失敗率が100%付近になる場所を見ると、11000~12000G付近が現実的な住民財布の限界と分かります。また、購入失敗率が10%になる価格を調べたい場合は、縦軸がlog10(0.1) = -1となる価格を探せば大体の価格(ここでは約5000G)を知ることができます。
今回はトパーズ郊外での調査となっています。しかしながら、この法則が他の街でも成り立つ場合、より少ない調査で住民の財布を明らかにすることが可能です(極論を言えば2000G,8000G付近の2箇所の確率が分かれば直線を引くことができます。実際には乱数を考慮してもう少し調査点を増やすことになるでしょう)。
しかしながら、勘の良い方なら既にお気づきかもしれませんが1000Gと12000Gのデータが直線上から大きく外れています。これは購入失敗の確率を強引に対数として扱ったために発生した歪みであるかもしれませんし、今回のデータが偶々直線関係にあっただけで実際の財布分布は少し異なる法則の下に決定されているのかもしれません。従って、今回の考察はあくまで「この法則を使えばうまく住民の財布分布を説明できるかも?」程度の内容であることをご了承下さい。
気になった方はご自身の街で調査をしてみてはいかがでしょうか。
3. まとめ
①販売価格と住民の購入失敗確率にはある程度の「法則」がみられる。
②「法則」を用いれば好きな価格における購入失敗率や財布上限が分かる。
③極端に安い、あるいは財布上限に近い価格帯では「法則」が成立しない。
以上になります。拙い説明でしたが、最後までお読みいただきありがとうございました。
4. 統計が分かる方向けの説明(間違っていたらご指摘お願いします!)
注:データセットの名前をdf, 価格をmoney, 購入失敗率を0~1で表し、更に常用対数をとったものをvalueとした。
分析にはR 3.6.1を使用した。
Call:
lm(formula = df$value ~ df$money)
Residuals:
Min 1Q Median 3Q Max
-0.22375 -0.01738 0.00009 0.06413 0.14385
Coefficients:
Estimate Std. Error t value >Pr(>|t|)
(Intercept) -1.751e+00 5.567e-02 -31.45 >3.99e-12 ***
df$money 1.507e-04 7.197e-06 20.94 >3.27e-10 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.09225 on 11 degrees >of freedom
Multiple R-squared: 0.9755, Adjusted R->squared: 0.9733
F-statistic: 438.4 on 1 and 11 DF, p-value: >3.266e-10
今回の単回帰分析では、有意水準0.1%で有意、決定係数R^2が0.97と非常に当てはまりの良い結果が得られた。
しかしながら、1000G及び12000Gでの結果が回帰直線から大きく外れていることからも分かるように、極端な価格帯に関しては単回帰分析が適切でない可能性も示唆されている。そのため、今回の結果はあくまで2000G~10000Gのような一般的な価格帯において購入失敗率を算出するための目安として使用するべきである。
参考文献
コメント
コメントにはログインが必要です