統計学の勉強をしていると、大体どの本を読んでも、以下のような構成になっています。

1.記述統計(平均、分散、最頻値など)
2.統計検定(t検定など)
3.回帰分析
4.その他の分析(主成分分析、因子分析など)


1~3までは統計学を勉強したことがなくてもイメージしやすいと思います。
平均は数学とかで勉強したことありますし、分散とかも聞いたことがあります。
回帰分析は聞いたことはなくても、「データの真ん中に線を引く」という感じでイメージしやすいです。

しかし、4がイメージしにくいですね。(´?д?;`)
統計学のテキストによって、扱われていたり、扱われていなかったりと内容も異なっています。
完全に理解できなくても、統計検定や放送大学は合格できますが、折角なので、理解できるまでまとめておきます。

まずは、主成分分析をまとめていきます。(*・ω・)ノ


1.主成分分析のイメージ

主成分分析のイメージは、「多数の特徴を少数の特徴にまとめる」です。
例えば、複数の科目の点数を、文系科目と理系科目にまとめるという例が良く出てきます。

A君は算数が90点、理科が80点、国語が60点、社会が50点。
B君は算数が50点、理科が60点、国語が80点、社会が90点。

この点数を見ると、A君は理系科目が得意で、B君は文系科目が得意なんだと考えます。
4科目の点数という特徴を、文系と理系という2種類にまとめているのです。


この例では、理系と文系というように、自分で2つにまとめていましたが、
主成分分析では計算によって、自動的にまとめてくれます。
そして、1つにまとめたほうが良いのか、
2つにまとめたほうが良いのか、
3つにまとめたほうが良いのかを、数値で示してくれます。



2.新しい軸の見つけ方のイメージ

では、主成分分析では、どのようにして種類をまとめてくれるのでしょうか?
それは、「データのバラつきが最大となる新しい軸を探す」という方法です。


下のグラフでは、理科(縦軸)と算数(横軸)の点数を示しています。
主成分分析1



これを、理系能力としてまとめるには、どうしたらよいでしょうか?
仮に、算数(横軸)だけでまとめると、下のグラフのようになります。

主成分分析2


バラバラだった11人の生徒の成績が5つだけになりました。
算数が苦手でも理科が得意な生徒や、算数が得意でも理科が苦手な生徒もいますが、
上のようにまとめると、各生徒の違いが見えにくくなってしまいました。


では、理科(縦軸)だけでまとめてみます。
主成分分析3

同じく、11人の生徒の成績が5つになりました。
やはり、まとまりすぎて、各生徒の違いが見えにくくなってしまいました。



ちょうどよいのは、真ん中あたりに軸を設定して、まとめる方法です。
主成分分析4

11人の生徒の成績が9つになりました。
算数だけや理科だけでまとめると、各生徒の違いが見えにくくなりますが、
この場合だとある程度は違いを表現できています。

この新しい軸を理系能力とすることで、各生徒の能力差を測定できそうです。


主成分分析では、このような軸を計算で見つけることができます。
計算方法については、別の記事でまとめます(*・ω・)ノ








スポンサードリンク