回帰分析
昨日は、分散なんて使わないな、
とか言ってましたが、本日の回帰分析で早速出てきました。
なんで確率と統計が高校数学の最後か
わかってきましたよ。
回帰分析で微分や行列の話が出てきます。だから、その辺がわかってないと、話がわからないって事なんですね。
本題
回帰分析って何だ?
例えば、自分の住んでいる市町村の人口変化率なんかを予想するのに使う。
年度の人口変化を見て、来年はどれくらいとか、5年後、10年後、はたまた最近流行りの100年後を予想する。
人口変化を予想するのが目的ってことになる。
ポイントは、
何に基づいて予想したか
となるので、別の情報が1つ以上必要になります。
つまり、説明用の情報だ。
字ずら通りの説明変数と呼ばれます。
予測しなければならない変数も、目的変数とわかりやすい呼び名が付いてました。
今朝学んだ部分だと、説明変数がいくつでも良くて、目的変数を予測する線形的な性質を見つけ出すのが回帰分析という理解をしました。
とはいえ、説明変数が2つ以上になると
説明できるか心配なので、
今日のところは1つで手を打つことにしましょう。
何故なら、
基本概念の理解が大事だから
で、先ほどの人口変化率の話に戻ると、
婚姻率を説明変数に採用します。
本物のデータを見るまでもなく、婚姻率が高い場合に人口が増加し、低い時に低迷するか、減少してるはずです。
人口増加率をy座標に、婚姻率をx座標にとり、収集したデータをプロットすると、
お、なんか直線に見えるぞ!
って事に気づくはずです。
じゃあ直線の一次関数を求めれば、予測できますね。
そう、y = b + ax です。
これで終わりではありません。
先ほど直線に見えただけなので、aとbが求まっていませんね。
どんな直線にするかを、決める作業が必要で、先ほどプロットした点の集まりにおいて1番近いところを通る直線になります。
この辺をスマホで書こうとするときついので、後で補足するとして、最小二乗法という計算方法を使います。
また、私は使った事が無いですが、EXCELのソルバーというのを使いこなすと簡単だそうです。
ネーミング流石ですね、って感心してる場合ではないですね。使えるようにしておきましょう。
これで、先ほどのaとbが求まりますので、婚姻率を変化させると、人口変化率が予測できる事になります。
そんな直線的に説明できるのか?
もちろんプロットした結果を見て、直線に見えない場合が出てくるでしょう。
ご心配なく、その場合は、
説明変数で説明できないです。
違う説明変数を使いましょう!
相関を探して、予測するという作業はこんな繰り返しだと理解しました。
今日のまとめ
- 回帰分析は予測するための手法
- 目的変数を予測するための説明変数が1つ以上ある
- 予測値を出すためのaとかbの係数を求めるには最小二乗法を使う
スマホでこの手のブログ書くのが限界
- 図や数式を書くのが辛い。
- たとえ、アプリを駆使して図や数式をスマホで書けるぜ!とかあっても、老眼なのでiPhoneでそこまでやるのも無理
- それを習得するくらいなら、確率・統計の勉強に時間を使いたい(一瞬、マスターした後にYoutubeで「描いてみた」とか載せたらカッコいいなとかよぎったが、やらない)
細かな補足は、週末対応するか、
キレイにまとめ直して、
SlideShare
にアップしてみるか考えてみます。