カイ二乗検定を無理やり使ってみる - 猫好きな老体気味SEの備忘録

久々にアップします。

朝の通勤電車でインプットした情報を元に、自分の立ち位置で使うとしたらどうなるかを帰りに考えてみるライフハック。

検定といえばこれらしい。

ただ残念ながら、確率の勉強が先だということに気づいたので、明日の読み物が必然的に決定。

統計的には帰無仮説という。

これは、観測やスポット的に調査して得られた何らかの統計情報、つまり自分で事実を集めてきたものだけで、論理的に理由をつけた傾向で一旦仮説を立てる。これを観測仮説というらしい。

本題の帰無仮説は、この仮説の逆説になる。

なんで帰無仮説が必要かというと、自分で集めた情報の確からしさを、確からしく示したいからなんだと思う。

ここまでだとすごく適当な統計手法に見えるが、出現確率が正しく計算されていると、確からしい仮説になる。

この二つは、互いに交わらない仮説なので、一方を採用すると片方は棄却される。

つまり、観測仮説の方が「あり得そうか」、またはその逆かということがわかってくる、、、そうだ。

確率分布図とカイ二乗値を組み合わせると、分布的に今回観測した値が全体の何％かってのがわかる。

統計学では、有効水準というのを5%や1%で仕切ることにしてるらしい。

素人的には5%でいい気がしてるが、観測数が母数に占める割合によっては1%の選択もありなのかな？そんな安易には決めない気もするが、、、

とにかく、有効水準内であるか、そしてそのカイ二乗値の出現確率はどれくらいなものか、分布的にどの位置なのかってのを見て、採用される仮説がきまり、やっと「確からしい」となる。

ここまで書いておいてなんだが、身近にそこまで頑張るデータや命題がないなぁ。

無理にやったところで、得られる結果が寂しい。つまり仮説の検証だけ。確率的に確からしさが求まる、だけ。

全く例を出してなかったので、なんのこっちゃというものになってしまった。

簡単な例としては、当たりハズレの二種類が箱の中に入っていて、それぞれの入ってる枚数が決まってる。例えば当たり10枚、外れ90枚。1人が10回引いてもらう。この時引いた結果は記録だけ残して元の100枚にはこの中を保つようにする。

これをとりあえず男女各5000万人にやってもらうことを考える。

事前にスタッフ男女各5名で試した結果として、女性の方が当たりをひく結果となった。

これは5000万人で実施ても同じかってのを確認したい時に検定を使う。

確率分布は、当たりハズレ2種類の時と1等〜5等までの5種類とかで変わってくる。これは、変数がいくつあるかによって、出た目の出現確率が異なるから。

つまり、軽くテストして見て、その観測された傾向がそのまま現実に起こりうるのかがなんとなくわかる。しかも根拠とともに。

確率が正しく計算できないと、

そもそもカイ二乗値を求めることができない。

求められないと、確からしいと胸はって言えない。

なので、確率の求め方をしばらく勉強します。