猫好きな老体気味SEの備忘録

タイトル通り、不定期更新、基本猫の話題は奥さんのブログに他力本願

分散共分散行列とパス図

http://instagram.com/p/atKR0ONZuT/

なんか理解が行き詰まると思ったら、
今日のタイトルにある部分を軽視してた事に気づいた。
相変わらず、若干頭は働かないが、
先日紹介した本の第1章にわかりやすく書いてありましたよ。

準備とか書いてあるんで

斜め読みしてましたし、
いきなり、分散共分散行列とか書かれててもあんまり頭に入らなかったわけですよ。

もう一つのパス図は、なかなかわかりやすいです。
変量の関係を図に表す方法です。
私が理解しやすいと思う例は、
洋服の好み分析ですかね。
ま、これを単純にモノトーン系とパステル系、原色系とかに分けるんですかね。
アパレルも色彩も詳しくないんで
その辺は暇があったら友達にきいてみますが、まあ単純に思いつくのはそんなとこですね。
このなんたら系ってのは仮説なので、実際の観測値がないですよね。これを潜在変数というようです。
元の値、つまりとある服の人気度は、アンケートで得られた観測変数です。

例えば、黒のストライブのジャケットという観測変数は、モノトーン系の潜在変数に独自因子が加わったものと説明できるわけです。

観測変数 = a x 潜在変数 + 独自因子

という感じで、黒のストライプのジャケットの嗜好を分解してみます。

ちなみにaは、因子負荷量といって、黒のストライブのジャケット用の係数になります。

白のブルゾン、千鳥格子のパーカーも同じのように表せるはずです。
この時の因子負荷量は、それぞれ違う値になりますが、潜在変数は同じ値になります。

潜在変数が同じ値になるということで、共通性が値によってわかりそうですね。
正確には、分散を求めるとわかりそうです。

分散のおさらい

Σ(観測変数 - 観測変数の平均値)の二乗/標本数

この観測変数に先ほどの潜在変数の式を代入すると分散が出ます。
これを同様に白のブルゾンと千鳥格子のパーカーでも計算します。

大事な話

今回は嗜好度合アンケートで、全ての値が1〜10の範囲しか発生しないこと。

観測値の単位や桁が異なる場合は、標準偏差(=分散の平方根)を求めて、値を標準値にする必要があります。
標準化によって、取り得る範囲が分析軸で同じにでき、潜在変数を計算できるようになるのです。

ここまで来たら、再び因子分析に戻りましょう。