統計の話: 回帰分析と主成分分析はどこが違うか? 元茨城学習センター長 塩見正衛

投稿日: 2012/09/08 14:08:37

今回は、成人の身長と体重を例にとって話します。身長をx、体重をyで表わします。「このxyにはどのような関係があるか?」を調べる2つの方法を考えます。研究に従事しておられた方で、回帰分析を一度も使われなかった方はいないでしょう。また、主成分分析を使われた方も多いと思います。ともに、xyを一次式で表現する統計的手法ですが、全く異なった概念です。

次の10人の成人に対して仮のデータを作ります。( , ) 内の左を身長x cm、右を体重y kg、○内をデータの組番号とします:①(165, 63.2)、②(158,57.0)、③(154, 54.2)、④(172, 69.3)、 ⑤(169, 63.2)、⑥(164, 60.2)、⑦(170, 55.8)、⑧(172, 65.1)、⑨(152,46.0)、⑩(178, 73.6) 。

回帰分析の結果、次の回帰式が得られ、y の偏差平方和のうち回帰式で説明できる平方和の割合(寄与率あるいは決定係数と呼ぶ)は、0.77でした:y = 0.825x – 75.6

xyの関係は図1のとおりで、データを●で、推定した回帰式を右上がりの直線で表わしました。この図では、身長が高いほど体重が重いという傾向が見られます。ここで、データ⑦を例にとって話します。点 (170, 55.8) からy軸に垂直に伸ばした直線と回帰直線の交点の座標は(170, 64.6)で、○の点です。●と○の間の線分の長さをe7とします。他のi番目の点も同様にeiと書くと、回帰式の勾配と切片の推定値は、e12 + e22 + … + e102が最小になるように決めました。その結果が、上の式です。

さて、ここで主成分分析PCAの話に移り、回帰分析のときと同じデータを使って解析します。PCAでは、身長と体重のように解析に用いる変数の単位が異なっているときには、単位を同一化する必要があります。そのために、広く使われている方法は基準化です。基準化とは、すべてのデータから平均値を引いた値を標準偏差で割ることです (基準化された数値は無名数です)。すると、身長も体重も、平均0、分散1の数値に変換されます。このような変数変換によって、どの変数も平等に取り扱えます。身長の平均は165.4 cmで標準偏差は8.5 cm、体重の平均は60.8 kgで標準偏差は7.9 kgですから、データ①は(–0.047, 0.304)、データ②は (–0.871, –0.481)、…というようになります。ここでは、この基準化された数字の組を (x', y')で表わしましょう。

図2に、基準化したデータと、分析結果の第1主成分z1軸および第2主成分z2軸を示します。10個のデータをz1軸上に射影したときの10個の点の分散を第1固有値と呼びますが、その値は1.879でした。z2軸上に射影したときの分散 (第2固有値) は0.121でした(2つの固有値の和「全変動」は元の変数の数2.0に一致します)。図2を見ると、z1軸は身長と体重の総合指数「体躯の大きさ」と解釈できます。z1値が大きな個体は大きな体躯、z1値が小さな個体は小さな体躯の人といえるでしょう。たとえば、図2のz1軸右端の⑩の人は、大きな体躯の人であり、左端の⑨の人は体躯小さい人です。第2固有値は第1固有値に比べて非常に小さいく、全変動の大きさ2.0に対するz2軸の寄与は無視できるほどです。この例では、これら2本の直線は、z1 = 0.7071x + 0.7071yおよびz2 = 0.7071x – 0.7071yで表わされ、2直線は直交しています(係数の積和が0)。

さて、ここに書いた直線の係数はどのようにして求めたのでしょうか? 図2に書き込んであるデータ④に対応した●と△を結ぶ長さd4の破線は●からz2軸に向かって直角に引いた線で、④のz1の値を示しています。データ④の座標(●)を元の (x’, y’) で表わすと (0.776, 1.076) で、変換後の (z1, z2) で表わすと (1.310, 0.209) です。他の9組のデータに対しても、同じように点iからz2軸への距離をdiとするとき、d12 + d22 + … + d102を最大にするような直線としてz1の係数を決定します。このための計算は結構厄介ですが、コンピュータプログラムがあれば、一瞬にして完了します。第2主成分の式z2についてもz1の場合と同じ概念で計算して得られました(ただし、身長と体重のように2変数だけの場合には、「z2z1に直交する」という性質を使って、容易にz2の式を得ることができます)。しかし、第2主成分z2の固有値小さく、単に誤差的な意味しかもっていないので、意味づけは困難です。

以上、私が今回言いたかったことは、図1に示した回帰式では ∑ei2を最小にするように係数を決定したのに対し、図2に示したPCAでは ∑di2を最大にするように係数を決定した ことです。分かりやすい例をと思って、2変数の場合を取り上げましたが、もっとたくさんの変数の場合でもこの概念は成り立っています。どうでしょうか、回帰分析とPCAの違いは理解できたでしょうか。次回から数回は、1980年代から利用されるようになった新しい統計的手法について述べます。