猫好きな老体気味SEの備忘録

タイトル通り、不定期更新、基本猫の話題は奥さんのブログに他力本願

主成分分析

f:id:inf12ty:20131115210729j:plain
今朝のテーマは、主成分分析。
ちなみに読んでる本は、7章構成でこれは3章目。
通勤中なのでそんなもんかとも思いますが、理解できなくて読み返しちゃうんですよね。ペース的には1日20ページかぁ。

では、どんな話かに移りましょう。
例で載ってたのは、1クラスの中の教科別の点数でした。
もちろん架空の個人名ですが、実際職員室に転がってそうな表ですね。昨今の個人情報保護法とかの対象にはならないのかな?とか思ってしまった。

例によって、スマホからその表を転記するのが辛いので、

想像してください!


Aくん、数学60、英語52、国語43、社会55、理科72
Bくん、数学58、英語76、国語40、社会52、理科68
とかいう情報がクラス分並んでるやつです。

主要成分を見つけるってのは

単に合計点数が高い生徒が優秀というのでは個性がわからないので、クラスの中で個人を目立たせるための方法です。
全部で40人分の成績が並んだとして、
どの教科が合計点に影響してるかを見つけ出すのです。

やっぱり、スマホじゃ全く伝わりそうにないですね。何言ってるか全く伝わらない気がしてきました。

が、続けます。


個人の合計点を求める時にちょっと違う式を使うんです。
a x 数学 + b x 英語 + c x 国語 + d x 社会 + e x 理科
という式です。これをとりあえず、評価点算出式という名前にしておきます。
また、このa〜eには次のルールをつけます。
a + b + c + d + e = 1

なんでこんなルールにしてるかは、

忘れてしまいましたが、、、

上の評価点算出式で全員分を求めた場合の分散値を最大にするa〜eを導くのが最初の段階です。
これもEXCELのソルバーで求められるらしいです。

そんで、求まったa〜eの中で一番大きい値になったところが主成分ということになります。

再度、評価点算出式を使って、個人ごとの評価点を求めると、単純合計ではトップの人が10番くらいにランクダウンしたりすることがあるようです。

読んでた本だと、英語が主成分で、全体の90%の影響があるとしていました。

なかなか面白いんですが、なにしろ数式やら行列とかが多いです。
キーワードとして重要なのは、

分散共分散行列

3つ以上の変量使って、傾向を見たり、予測したりする時には、すぐにこの分散共分散行列が書けないとダメです。

ソルバーが解決してくれますが、客の前でソルバーくんが出したのでとか言ったところで、全く刺さらないでしょうね。

また、少し腕に覚えのある、
というか上場企業とかに売り込む場合、
相手も数学に強いとか想定すると、
逆にソルバーに興味を持たれて、
肝心の商談ができなくなりますね。

なので、原理をちゃんと説明できるようにしておきましょう。

今日のまとめ

  • 主要成分分析では、分散を最大にする係数を求める
  • 分散共分散行列をすぐに書けること
  • 影響度は、説明省略してしまいましたが、元の値で分散値を求めて、それを分母にした時の割合
確か、次は要因分析だっと思います。
多分、昨日の目的変量・説明変量の関係と似たような話なのかな。

では、また来週。