変量の標準化のメリット - 猫好きな老体気味SEの備忘録

因子分析に戻りましょう！

なんて言ってましたが、標準化の話が中途半端でした。

昨日は、標準化について、スケールの異なる変量を扱う時に比較しやすくするという話を書きました。

そこで標準偏差を求めるまででとどめて、肝心の標準化の話を書かなかったですね。

値を標準化

変量と平均の差を標準偏差で割ったものになります。変量ｘを標準値にする式はこんな感じです。

ｘの標準値 = ( ｘ - ｘの平均値 ) / ｘの標準偏差

この式でわかるように、平均を下回ればマイナス、上回ればプラスになります。

平均値と一致するとゼロ。

この値に50を足したものが、懐かしくもある偏差値です。

いや、正確には標準偏差が10になるように規格化するものという定義なので、標準値を10倍したものに50足した値が偏差値です。

分散のおさらい

( ｘ - ｘの平均値 )の二乗を合計したものを変量ｘの表本数で割ったもの

なんで二乗するかというと

変量から平均値を引いたものを合計するとゼロになってしまうから。どんだけ拡がってるかを見たいのに、ゼロになったらなくなっちゃいますからね。

標準偏差は分散の平方根

分散は上記のように二乗の値なので大きすぎるわけです。

平方根で元の値のスケールに戻します。

計算式からわかるように、平均値からの拡がりが数値化されます。

平均値に偏りが強いと数値が小さくなり、逆に値が分散してれば大きくなりますね。極端な例としては、30人の試験結果が0点、50点、100点とそれぞれ10人ずついた場合です。

平均点は50点ですね。

この時の分散は、

50^2 × 20 / 30 = 1,666.67

標準偏差は、

√1,666.67 = 40.82

標準化してみます

0点の人は、

( 0 - 50 ) / 40.82 = -1.225

※偏差値は約38

100点の人は、

( 100 - 50 ) / 40.82 = 1.225

※偏差値は約62

どんなスケールの値同士の比較も、標準化によって可能になるってことがわかったと思います。

ついでに、さっきの30人の得点分布を

0点5人、50点20人、100点5人にすると、

この時の分散は、

50^2 × 10 / 30 = 833.33

標準偏差は、

√833.33 = 28.87

0点の人は、

( 0 - 50 ) / 28.87 = -1.732

※偏差値は約33

100点の人は、

( 100 - 50 ) / 28.87 = 1.732

※偏差値は約67

平均値との差が同じでも、標準化の値が変わってくるのがわかりました。

馴染みやすいように偏差値も出しておきました。

暗算しやすい例にすればよかったよぉ〜

後悔先に立たず

まあ、これで標準化のトレーニング終了できたと私が思えたので、

いよいよ因子分析に移りましょう。

ヤルヤル詐欺は今日で終わりです。

日本で手に入らない、デンマークデザインのネクタイ！