前回の記事に引き続き、主成分分析のメモです。

前回の記事はこちら( ´∀`)つ




主成分分析では、「多数の特徴を少数の特徴にまとめる」ことをしています。
算数と理科の点数をまとめて、「理系能力」としたい場合、どのようにまとめたら、よいでしょうか?
この記事では、計算方法をメモしていきます(*・ω・)ノ


主成分分析1

算数の点数と、理科の点数を、次のように結合させます。

<式1>
理系能力 = a × 算数点数 + b × 理科点数


例えば、a=1、b=1ならば、算数と理科の合計点が理系能力になります。
もしa=2、b=1ならば、算数の方を重視した評価指標になります。

aとbにどのような値を設定するかで、算数を重視した理系能力とするのか、
理科を重視した理系能力とするのかが決まります。

適当に決めるといけないので、主成分分析では、
生徒一人一人の違いが分かりやすいようにaとbを設定します。

つまり、<式1>で計算される「理系能力」の分散が最大になるようなaとbを設定します。



では、「理系能力」の分散の式に変形します。

<式2>
理系能力の分散 = a^2 × 算数の分散 + 2ab × 算数と理科の共分散 + b^2 × 理科の分散


この「理系能力の分散」が、最大となるようなaとbを選択します。
ただし、このままでは解が一つに定まりません。
aとbを大きくすれば、「理系能力の分散」がどれだけでも大きくなるからです。
そこで、aとbの上限を定めます。

<式3>
 a^2 + b^2 = 1


あとは、<式3>の制約下で、<式2>を最大とするaとbを計算するだけです。

ラグランジュ乗数法を使えば、下記のように計算できます。

<式4>
 a ×「算数の分散」+ b×「算数と理科の共分散」ー λa = 0
 a×「算数と理科の共分散」+b×「理科の分散」ー λb = 0
 a^2 + b^2 = 1


<式4>は変数3つで、式が3本なので、解a*とb*を求めることができます。



<式5>
 理系能力 = a* × 算数点数 + b* × 理科点数


これで、各生徒の算数と理科の点数を、理系能力という一つの点数にまとめることができました。


数式だけでは、分かりにくいので、数値例で確認したいところですね。
別の記事で書いてみます(*・ω・)ノ



【関連記事】
主成分分析のイメージを掴むため、グラフを使ってまとめています。



統計検定2級にも、主成分分析が出題されます。
2級に合格するには、主成分分析と因子分析の違いを抑えれば良さそうです。






スポンサードリンク