(回帰モデルにおける偏回帰係数の意味は何か,多重共線性とは何か)
(授業の補足用の資料)
統計学の授業で回帰分析について説明する際,推測統計学において,母集団版と標本版で回帰モデル等を分けて説明しています.母集団版が理解できると,その後,標本を取ってきて推測する標本版では,母集団版に対応する標本版を考えることで,容易に理解できるようです.
なお,学生から「多重共線性」とは何かをしばしば質問されます.また,「偏回帰係数」について,勘違いしている学生もいるようですので,母集団版の話を中心に(母集団版を中心にした専門書は少ないようですので),復習もかねて少し補足したいと思います.
Q7
推測統計学において,母集団における(母)回帰モデルとは何ですか?
A7
ある人の身長からその人の体重を予測する場合を考えましょう.ときどき,身長を x (cm) とすると,身長の値から 100 を引いて,その値に 0.9 をかけるとおおよその体重が予想できるかもしれない,ということをときどき聞きます.つまり,この場合,y* = 0.9(x - 100) (kg) は,その人の体重の予測値となります(これは,たとえばということであって,適切かどうかはここではわかりません).しかし,実際は,ぴったりと当たらなくて,その人の実際の体重(実測値)を y (kg) とすると,誤差 y - y* (= ε と記すことにします)が生じます.すなわち,y = y* + ε の関係が成り立ちます.
今,身長から体重を予測する例を述べましたが,他にもいろいろな例があるかと思います.たとえば,高校3年生が大学受験をする際,高校最後の模擬試験の成績(たとえば,数学,英語等の得点から,受験する前に,大学入試共通テストの得点を予測したり,あるいは,希望する大学を受験したときの得点を予測したいとか,いろいろな場合が考えられるかと思います.一般に,ある値 x(説明変数 X の値)からある値 Y (目的変数)を,x の関数で \(h(x)\) で予測する場合,無数作ることが可能な関数 \( h(x)\) の中で,これから得られる実現値 Y と予測値 \(h(x)\) とのズレ(誤差)が(プラス,マイナスあるので2乗して),つまり,\((Y - h(x))^2\) が小さく期待できる,つまり,期待値 \(E[(Y - h(x))^2]\) (誤差 ε の分散)が小さくなる関数 \(h(x)\) を用いて, Y の値を予測するのが最良です.
この期待値(平均2乗誤差)を最小にする関数 \(h(x)\) は X = x を与えたときの Y の条件付きの平均,つまり,E(Y|X=x) (これは x の関数であり,\(h^{*}(x)\) と記す)で与えられます(証明は略します).すなわち,Y を \(h^{*}(x)\) で予測すれば,誤差(の2乗)を最小にすると期待できます.
たとえば,全国の20歳の男性全体(母集団)を考えましょう(おそらく,約60万人くらいかと思います).母集団の男性全体の中から任意にひとり選んだ男性の身長を X (cm) ,体重を Y (kg) とします.この (Y, X) は2次元(2変量)の正規分布に従うとします. 体重 Y の母平均を \(\mu_1\), 身長 X の母平均を \(\mu_2\) とします.また,体重 Y の母分散を \(\sigma_1^2\),身長 X の母分散を \(\sigma_2^2\),そして,身長 X と体重 Y の母相関係数を \(\rho\) とします.(つまり,X と Y の母共分散は,\(\rho \sigma_1 \sigma_2\) です).
説明変数である身長の値 X = x を与えたとき(たとえば,60万人の20歳の男性の中で,身長が x = 172 cm の人だけを集めたとき),目的変数である体重 Y (kg) の条件付き分布は,正規分布であり,そのときの Y の条件付きの母平均は, \[ E(Y|X=x) = \mu_1 + \rho \frac{\sigma_1}{\sigma_2}(x - \mu_2), \] であり,条件付きの母分散は, \[ V(Y|X=x) = \sigma_1^2(1 - \rho^2) \] であります(証明は,専門書をご覧下さい). ここで,条件付きのこの母分散を \(\sigma^2\) で記すことにします.すなわち,\(\sigma^2 = \sigma_1^2(1 - \rho^2) \) です.
したがって,説明変数 X の値から目的変数 Y を予測する最良な関数は \[ h^{*}(x) = \mu_1 + \rho \frac{\sigma_1}{\sigma_2}(x - \mu_2) \] です.ここで, \[ \beta_0 = \mu_1 - \rho \frac{\sigma_1}{\sigma_2}\mu_2, \beta_1 = \rho \frac{\sigma_1}{\sigma_2} \] とおくことにします.このとき,X = x を与えたとき, \[ Y = \beta_0 + \beta_1 x + \epsilon, E(\epsilon) = 0, V(\epsilon) = \sigma^2 \] が得られます. これは「母(単)回帰モデル(回帰方程式)」と呼ばれています.(なお,目的変数 \(Y\) が,説明変数の値 \(x\) の線形結合で表されていますので,「(母)線形回帰モデル」とも呼ばれています).ここに,係数 \(\beta_0\) と \(\beta_1\) は,「母回帰係数」と呼ばれています. また,\(\epsilon\) は「誤差」と呼ばれており(なお,著者によっては,これを「残差」と呼ぶ場合もあります),確率変数(定数でなく)です.なお,ここでは,誤差 \(\epsilon\) は正規分布に従っています.そして,X = x を与えて, \[ Y^{*} = \beta_0 + \beta_1 x \cdots (1) \] は「母回帰直線」と呼ばれています.この \(Y^{*}\) は X = x を与えたときの Y の条件付きの平均 E(Y|X=x) です. ここに,\(\beta_0, \beta_1, \sigma^2\) は未知です.ここまでは母集団における話です.
母集団における上記の母(単)回帰モデル等は,実際には未知です(パラメータが未知ですので).そこで,推測統計学では,母集団から(大きさ n の)標本を取ってきて,標本の値 \((x_i, y_i), i = 1, 2, \cdots, n \) に基づいて,未知パラメータ \(\beta_0, \beta_1, \sigma^2\) の推測(推定や検定)を行います.これらを「回帰分析」と呼んでいます.そして,推定した \(\beta_0, \beta_1\) を \(\hat{\beta}_0, \hat{\beta}_1\) で表して,これらを「標本回帰係数」と呼んでいます.そして,式(1)の母回帰直線の右辺の母回帰係数を標本回帰係数で置き換えた式を \(\hat{Y}\)と記すことにします.すなわち,母回帰直線(1)の推定した式, \[ \hat{Y} = \hat{\beta}_0 + \hat{\beta}_1 x \cdots (2) \] を「標本回帰直線」と呼んでいます.説明変数 X の値 x を知ったとき(たとえば,Aさんの身長が x = 172 cm であるとき),標本回帰直線(2)を用いて,目的変数 Y を \(\hat{Y}\)で(Aさんの体重を,式(2)で x = 172 とおいた \(\hat{Y}\) で)予測します.また,そのときの予測値 \(\hat{Y} \)は,Aさんの体重の実際の値 Y(実測値)と(一般には)完全に一致はしません.実測値と予測値との差(これを「残差」と呼び,\(e\) と記して)は,\(e = Y - \hat{Y}\) となります.すなわち, \[ Y = \hat{\beta}_0 + \hat{\beta}_1 x + e \cdots (3) \] という式が成り立ちます.この式(3)は「標本(単)回帰モデル」と呼ばれています.ここに,母(単)回帰モデルにおける「誤差」\(\epsilon \) は,確率変数ですが,母回帰係数が未知ですので,誤差の値を具体的に我々は求めることができません.一方,標本(単)回帰モデルにおける「残差」の \(e\) は,たとえば,Aさんの場合の残差は,Aさんの身長の値 x (cm) と 体重の値 y (kg) から(そして n 人の標本値から推定した標本回帰係数から)求めることができます.また,別のBさんの場合の残差は,Aさんとは異なる残差となります.当然のことですが,各人により残差の値は異なります.
なお,上記の母集団における母(単)回帰モデル,そして母回帰係数,誤差の母分散は,すべて未知ですが,式の形を見れば,標本に基づいたそれらの推定量(ここでは最尤推定量)は,最小2乗法を用いなくても得られるかと思います.説明変数 X の母平均,母分散,目的変数 Y の母平均,母分散,そして X と Y の母相関係数(または,母共分散)のそれぞれの対応する大きさ n の標本値から求めた説明変数 X の標本平均,標本分散,目的変数 Y の標本平均,標本分散,そして,X と Y の標本相関係数(または,標本共分散)を用いれば,標本(単)回帰モデル,標本回帰係数,そして,誤差の母分散の推定値(標本数 n で割っての残差平方和)が,容易に得られるかと思います.
(補足)
ちなみに,大きさ \(n\) の標本を取ってきたとき,\(n\) 個の各誤差が互いに独立に正規分布に従うときは,母回帰係数の最小2乗推定量と最尤推定量は理論的に一致します(誤差平方和の母回帰係数に関する最小化と尤度関数の母回帰係数に関する最大化は同じことですので).
Q8
偏回帰係数はどのような意味があるのですか.
A8
(その 1)
上記の質問(Q7) では,一つの説明変数 X から一つの目的変数 Y を予測する場合(たとえば,身長から体重を予測するような場合)の母集団における母回帰モデルの話をしましたが,説明変数を一般のp個に増やす場合に考えやすいように,少し記法を以下のように変えてみます:
今,目的変数 \(Y\) の母分散 \(\sigma_1^2 \) を \(\sigma_{11} \) と記して,説明変数 \(X\) の母分散 \(\sigma_2^2 \) を \(\sigma_{22} \) で,\(Y\) と \(X\) の母共分散 \(\rho \sigma_1 \sigma_2\) を \(\sigma_{12} \) と記すことにします.なお,\(X\) と \(Y\) の母共分散を \(\sigma_{21} \) と記すことにしますが,\(\sigma_{12} = \sigma_{21} \) です.つまり,\((Y, X)\) の(母)分散共分散行列は, \[ \Sigma = \begin{pmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{pmatrix} \] です.このとき,上記の質問(Q7)で述べました(母)回帰係数は, \[ \beta_0 = \mu_1 - \frac{\sigma_{12}}{\sigma_{22}}\mu_2, \beta_1 = \frac{\sigma_{12}}{\sigma_{22}} \] のようにも表せます.ここに,\(\beta_1\) の分子は,目的変数 \(Y\) と 説明変数 \(X\) との母共分散であり,分母は,説明変数 \(X\) の母分散です.
また,誤差 \(\epsilon\) の母分散は,\(\sigma^2 = \sigma_{11}(1-\rho^2)\) となります.ここに,\(\rho\) は \(Y\) と \(X\) の母相関係数です.(なお,大きさ n の標本に基づいて推定した母相関係数は,標本相関係数です.そして,標本相関係数を2乗した値は,「決定係数」または「寄与率」と呼ばれています).
(その 2)
次に,説明変数が2つで,目的変数は1つの場合を考えてみます.たとえば,体重を身長と足の大きさ(または,靴のサイズ)から予測する場合を想定して見ましょう.説明変数を \(X_1\) と \(X_2\) とし,目的変数を \(Y\) とします.これら \((Y, X_1, X_2)\) は,3変量正規分布に従うとします.それぞれの母平均は,順に,\(\mu_1\), \(\mu_2\), \(\mu_3\) とし,それぞれの母分散は,順に,\(\sigma_{11}\), \(\sigma_{22}\), \(\sigma_{33}\) とします.また,\(Y\) と \(X_1\) の母共分散,\(Y\) と \(X_2\) の母共分散,\(X_1\) と \(X_2\) の母共分散を,それぞれ,\(\sigma_{12}\),\(\sigma_{13}\),\(\sigma_{23}\) とします.このとき, \((Y, X_1, X_2)\) の(母)分散共分散行列 \(\Sigma\) は \[ \Sigma = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \sigma_{13} \\ \sigma_{21} & \sigma_{22} & \sigma_{23} \\ \sigma_{31} & \sigma_{32} & \sigma_{33} \end{pmatrix} \] となります.ここに,\(\sigma_{ij} = \sigma_{ji}\) です.また,説明変数 \(X_1\) と \(X_2\) のみの(母)分散共分散行列を \(\Sigma_{22}\) とします.つまり, \[ \Sigma_{22} = \begin{pmatrix} \sigma_{22} & \sigma_{23} \\ \sigma_{32} & \sigma_{33} \end{pmatrix} \] です.このとき,\((X_1, X_2) = (x_1, x_2)\) を与えたときの「母回帰モデル」は \[ Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 +\epsilon, E(\epsilon) = 0, V(\epsilon) = \sigma^2 \cdots (4) \] となります.ここに,(母)回帰係数は \[ \begin{eqnarray*} (\beta_1,~ \beta_2) &=& (\sigma_{12},~ \sigma_{13})\Sigma_{22}^{-1} \\ &=& \frac{1}{\sigma_{22}\sigma_{33}-\sigma_{23}^2} (\sigma_{12}\sigma_{33} - \sigma_{13}\sigma_{23}, - \sigma_{12}\sigma_{23} + \sigma_{13}\sigma_{22}) \end{eqnarray*} \] と \[ \beta_0 = \mu_1 - \beta_1\mu_2 - \beta_2\mu_3 \] です.
ここに,説明変数が2つ(あるいは複数)あるとき,係数 \(\beta_1\), \(\beta_2\) は,「母偏回帰係数」と呼ばれています((偏)を取って,「母回帰係数」と呼んでいる場合が多いかもしれません).
そして,誤差 \(\epsilon\) の(母)分散は \[ \sigma^2 = \sigma_{11}(1 - \rho_{1(2,3)}^2) \] であり,\(\rho_{1(2,3)} \) は \(Y\) と \((X_1, X_2)\) との母重相関係数です.この母重相関係数は,目的変数 \(Y\) と説明変数の任意の線形結合 \(U = aX_1 + bX_2\) との母相関係数の最大値です.(なお,大きさ n の標本に基づいて推定した母重相関係数は,標本重相関係数です.そして,標本重相関係数を2乗した値は,「決定係数」または「寄与率」と呼ばれています). ここに, \[ \rho_{1(2,3)}^2 = \frac{(\sigma_{12}, \sigma_{13})\Sigma_{22}^{-1}(\sigma_{12}, \sigma_{13})^{t}}{\sigma_{11}} \] で与えられます.なお,記号 \(t\) はベクトルの転置を意味します.また,\((X_1, X_2) = (x_1, x_2)\) を与えたときの \(Y\) の条件付き平均である \(Y\) の予測値は \[ Y^{*} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \cdots (5) \] となり,これは「母回帰平面」です(詳細は,多変量統計解析等の専門書をご覧下さい).たとえば,ある人の身長 \(x_1\) と足の大きさ \(x_2\) から,その人の体重 \(Y\) を,この平面の式で予測します(この平面の式を用いると平均2乗誤差を最小にしています).
ここで,少し異なる視点で予測を考えてみましょう.今,説明変数の \(X_2 = x_2\) を与えたときの \((Y, X_1)\) の条件付き分布を考えてみましょう.たとえば,上記の20歳の男性全体(60万人)を考えましょう.身長 \(X_1\) と足の大きさ \(X_2\) から体重 \(Y\) を予測する際,まず最初に,足の大きさが \(X_2 = x_2\)(たとえば,足の大きさが 26.5 cm)の人を対象に,体重 \(Y\) と身長 \(X_1\) の2変量分布がどのようになるか考えてみましょう.ここで,
\[
\Sigma_{11} =
\begin{pmatrix}
\sigma_{11} & \sigma_{12} \\
\sigma_{21} & \sigma_{22}
\end{pmatrix}
\]
とします.説明変数の \(X_2 = x_2\) を与えたときの \((Y, X_1)\) の条件付き分布は,2変量正規分布になります.ここに,このときの \((Y, X_1)\) の条件付きの(母)分散共分散行列 (\(\Sigma_{12\cdot 3}\) と記すことにして,その \((i,j)\) 成分を \(\sigma_{ij\cdot 3}\)とします)は,「(母)偏分散共分散行列」と呼ばれ,次のようになります:
\[
\begin{eqnarray*}
\Sigma_{12\cdot 3} &=&
\begin{pmatrix}
\sigma_{11\cdot 3} & \sigma_{12\cdot 3} \\
\sigma_{21\cdot 3} & \sigma_{22\cdot 3}
\end{pmatrix} \\
&=& \Sigma_{11} - (\sigma_{13}, \sigma_{23})^{t}\sigma_{33}^{-1}(\sigma_{13}, \sigma_{23})\\
&=& \frac{1}{\sigma_{33}}
\begin{pmatrix}
\sigma_{11}\sigma_{33} - \sigma_{13}^2 & \sigma_{12}\sigma_{33}- \sigma_{13}\sigma_{23} \\
\sigma_{21}\sigma_{33} - \sigma_{23}\sigma_{13} & \sigma_{22}\sigma_{33} - \sigma_{23}^2
\end{pmatrix} \cdots (6)
\end{eqnarray*}
\]
つまり,\(\Sigma_{12\cdot 3}\) は,\(X_2 = x_2\) を与えたときの \(Y\) の(母)偏分散,\(X_1\) の(母)偏分散,そして,\(Y\) と \(X_1\) の(母)偏共分散(または,\(Y\) と \(X_1\) の(母)偏相関係数)から成っています.なお,このときの \((Y, X_1)\) の条件付きの母平均(ベクトル)は,
\[
\begin{eqnarray*}
E((Y, X_1)|X_2 = x_2) &=& (\mu_1, \mu_2) + (\sigma_{13}, \sigma_{23})\sigma_{33}^{-1}(x_2 - \mu_3)\\
&=& \left(\mu_1 + \frac{\sigma_{13}}{\sigma_{33}}(x_2 - \mu_3),~~ \mu_2 + \frac{\sigma_{23}}{\sigma_{33}}(x_2 - \mu_3)\right) \cdots (7)
\end{eqnarray*}
\]
です.(なお,変数 \((Y, X_1, X_2)\) の母平均が \((\mu_1, \mu_2, \mu_3)\) ですので,添え字にズレがありますので注意して下さい).
したがって,式(6)と式(7)から次のことが導出できます.
説明変数 \(X_2 = x_2\) を与えたときの この \((Y, X_1)\) の条件付き分布において,\(X_1\) から \(Y\) を予測するときの(母)回帰モデルは \[ Y = \beta_0^{*} + \beta_1^{*} x_1 +\epsilon_1, E(\epsilon_1) = 0, V(\epsilon_1) = \sigma_{1(3)}^2 \cdots (8) \] となります.ここに,(母)回帰係数は \[ \begin{eqnarray*} \beta_1^{*} &=& \frac{\sigma_{12\cdot 3}}{\sigma_{22\cdot 3}} &=& \frac{\sigma_{12}\sigma_{33} - \sigma_{13}\sigma_{23}}{\sigma_{22}\sigma_{33} - \sigma_{23}^2} &=& \frac{\sqrt{\sigma_{11}}(\rho_{12} - \rho_{13}\rho_{23})}{\sqrt{\sigma_{22}}(1 - \rho_{23}^2)} \cdots (8a) \end{eqnarray*} \] と \[ \beta_0^{*} = \left(\mu_1 + \frac{\sigma_{13}}{\sigma_{33}}(x_2 - \mu_3)\right) - \beta_1^{*} \left(\mu_2 + \frac{\sigma_{23}}{\sigma_{33}}(x_2 - \mu_3)\right) \] になります.ただし,\(\rho_{1k}\) は目的変数 \(Y\) と説明変数 \(X_k\) との(母)相関係数で,\(\rho_{23}\) は,説明変数 \(X_1\) と \(X_2\) の(母)相関係数です.
ここに, \(\beta_1^{*}\) は \(\beta_1\) に一致していることがわかります.(母)偏回帰係数 \(\beta_1\) の分子は,説明変数 \(X_2 = x_2\) を与えたときの目的変数 \(Y\) と説明変数 \(X_1\) との(母)偏共分散であり,分母は,説明変数 \(X_2 = x_2\) を与えたときの 説明変数 \(X_1\) の(母)偏分散であります. また,この \(\beta_0^{*}\) をさらに式の変形を進めて行くと,上記の \(\beta_1\) と \(\beta_2\) を用いて \[ \beta_0^{*} = \mu_1 - \beta_1\mu_2 + \beta_2 (x_2 - \mu_3) \] と表せます.この \(\beta_0^{*}\) は,\(x_2\) の値に依存していますので,\(\beta_0^{*}\) を,ここでは \(\beta_{0(x_2)}\) と記すことにします.
また,誤差 \(\epsilon_1\) の(母)分散は \[ \begin{eqnarray*} \sigma_{1(3)}^2 &=& \sigma_{11\cdot 3} - \frac{\sigma_{12\cdot 3}^2}{\sigma_{22\cdot 3}} &=& \sigma_{11\cdot 3}(1 - \rho_{12\cdot 3}^2) \end{eqnarray*} \] となります.ここに,\(\rho_{12\cdot 3}\) は \(X_2 = x_2\) を与えたときの \(Y\) と \(X_1\) との(母)偏相関係数です.
ここで,注意すべきことは,「\(\beta_1^{*}\) と \(\beta_1\) は一致する(また,説明変数 \(X_1\) と \(X_2\) を入れ替えて同様にして得られる式(8)の母偏回帰係数 \(\beta_2^{*}\) は \(\beta_2\) に一致する)」 という点です(たとえば,参考文献 [5] 参照).最初に説明変数 \(X_2 = x_2\) を与えて(つまり,一定にして),\((Y, X_1)\) の条件付き分布を考えて,説明変数 \(X_1\) から目的変数 \(Y\) を予測するときの(母)回帰直線は \[ Y^{**} = \beta_{0(x_2)} + \beta_1 x_1 \cdots (9) \] となります.ここに,(母)回帰直線(9)の切片項 \(\beta_{0(x_2)}\) は,説明変数 \(X_2\) の値 \(x_2\) に依存していることに注意して下さい((母)回帰平面(5)の \(\beta_0\) は説明変数の値に依存していませんが).
ここで,(母)回帰平面(5)の右辺の値と(母)回帰直線(9)の右辺の値は,同じになります.すなわち,予測式(5)と予測式(9)の左辺の \(Y^{*}\) と \(Y^{**}\) は一致します.平面による \(Y\) の予測と,切片項が \(x_2\) に依存する直線による \(Y\) の予測では考え方は異なりますが,説明変数 \(X_1\) と \(X_2\) の値が,それぞれ,\(x_1\) と \(x_2\) のときの \(Y\) の予測値は,どちらも同じ値になります.
ちなみに,母回帰モデル(4)の誤差 \(\epsilon\) の(母)分散 \(\sigma^2\) と \(X_2 = x_2\) を与えたときの \((Y, X_1)\) の条件付き分布から導出した母回帰モデル(8)の誤差 \(\epsilon_1\) の(母)分散 \(\sigma_{1(3)}^2\) は等しくなります(証明は略します).
上記のように,(母)回帰平面(5)の偏回帰係数 \(\beta_1\) は,説明変数 \(X_2\) の値 \(x_2\) を与えた(一定にした)ときの \(Y\) と \(X_1\) との偏分散,偏共分散(または偏相関係数)の関数として与えられます.(母)回帰直線(9)を用いての目的変数 \(Y\) の予測は,\(X_2\) の値 \(x_2\) に基づいて,最初に切片項 \(\beta_{0(x_2)}\) を固定し,次に傾き \(\beta_1\) の直線で,\(X_1\) の値から \(Y\) を予測することを示しているかと思います(あるいは,同様に,説明変数\(X_1\) の値 \(x_1\)に基づいて,最初に切片項 \(\beta_{0(x_1)}\)を固定し,次に傾き \(\beta_2\) の直線で,\(X_2\) の値から \(Y\) を予測することを示しているかと思います).
(注意点)
(母)回帰平面の式(5)の偏回帰係数の意味ですが,条件付きの母回帰直線(9)を考えれば,わかりやすいのではと思います. 条件付きの(母)回帰直線(9)は,もし,説明変数 \(X_2\) の値 \(x_2\) を固定(一定に)しないと,説明変数 \(X_1\) の値が 1 だけ増えても目的変数 \(Y\) の値が,\(\beta_1\) だけ増える(もし,\(\beta_1\) が負ならば,減る)ということではありません.条件付きの回帰直線(9)の切片項 \(\beta_{0(x_2)}\) も \(x_2\) に依存して動くからです.つまり,傾きが \(\beta_1\) の直線が,(切片が連続的に動いて) \(Y^{**}\) 軸に沿って上下に平行移動できる状態ですので,\(\beta_1\) の解釈ができなくなります.
もし,説明変数 \(X_2\) の値を固定(一定に)したままであれば,最初に切片項 \(\beta_{0(x_2)}\) が固定され,次に一つの直線で予測することになるので,\(X_1\) の値が 1 だけ増えれば,目的変数 \(Y\) の値は,その直線の傾きの分 \(\beta_1\) だけ増えるといえます(説明変数 \(X_2\) の値を固定(一定に)したときに, \(\beta_1\) の解釈がわかりやすく得られるます).このように,偏回帰係数の解釈には,やや注意が必要かと思います(たとえば,参考文献 [5] を参照).
(補足)
説明変数 \(X_2 = x_2\) を与えたときの \((Y, X_1)\) の条件付き分布において,\((Y, X_1)\) から母平均(ベクトル)(7)を 引いた変数を \((\epsilon_y, \epsilon_{x_1})\) とおくことにします.つまり, \[ \begin{eqnarray*} \epsilon_y &=& Y - \left(\mu_1 + \frac{\sigma_{13}}{\sigma_{33}}(x_2 - \mu_3)\right) \\ \epsilon_{x_1} &=& X_1 - \left(\mu_2 + \frac{\sigma_{23}}{\sigma_{33}}(x_2 - \mu_3)\right) \end{eqnarray*} \] とおくと,これらは,説明変数 \(X_2\) の影響を取り除いた後の,それぞれ,目的変数 \(Y\) と説明変数 \(X_1\) と見なせます.条件付きの母平均をずらしただけなので,\(X_2 = x_2\) を与えたという条件の下で,\((\epsilon_y, \epsilon_{x_1})\) の(母)平均(ベクトル)は 0 で,(母)分散共分散行列は,式(6)と同じです.したがって,\(X_2 = x_2\) を与えて,\(\epsilon_{x_1}\) から \(\epsilon_y\) を予測するときの(母)回帰モデルは,式(8)で平均をずらしただけなので,本質的には同じであり, \[ \epsilon_y = \beta_1 \epsilon_{x_1} + \epsilon_1, E(\epsilon_1) = 0, V(\epsilon_1) = \sigma_{1(3)}^2 \] で与えられます.
したがって,この回帰モデルから,説明変数 \(X_2\) の影響を取り除いてから,説明変数 \(X_1\) から目的変数 \(Y\) を予測する際,直線回帰式の傾きが,(母)偏回帰係数 \(\beta_1\) であることがわかります(参考文献 [5], [6], [7] を参照).
(多重共線性について(説明変数2つのとき))
すでに \((8a)\) で示しましたように,母偏回帰係数ですが, \[ \begin{eqnarray*} \beta_1 &=& \frac{\sigma_{12\cdot 3}}{\sigma_{22\cdot 3}} \end{eqnarray*} \] でしたので,\(\beta_1\) の分子は,説明変数 \(X_2\) の値を与えたときの,目的変数 \(Y\) と説明変数 \(X_1\) の(母)偏共分散であり,\(\beta_1\) の分母は,説明変数 \(X_2\) の値を与えたときの,説明変数 \(X_1\) の(母)偏分散であります.なお,\(\beta_1\) の分母の(母)偏分散が 0 にかなり近いときは,説明変数 \(X_1\) と \(X_2\) の(母)相関係数の2乗 \(\rho_{23}^2\) が 1 にかなり近いときであります.
同様に,\(\beta_2\) の分子は,説明変数 \(X_1\) の値を与えたときの,目的変数 \(Y\) と説明変数 \(X_2\) の(母)偏共分散であり,\(\beta_2\) の分母は,説明変数 \(X_1\) の値を与えたときの,説明変数 \(X_2\) の(母)偏分散であります.\(\beta_2\) の分母の(母)偏分散が 0 にかなり近いときは,説明変数 \(X_1\) と \(X_2\) の(母)相関係数の2乗 \(\rho_{23}^2\) が 1 にかなり近いときであります.
これらの母偏回帰係数の分母の値が 0 (すなわち,説明変数 \(X_1\) と \(X_2\) の(母)相関係数の2乗 \(\rho_{23}^2\) が 1)にかなり近いような場合は,説明変数 \((X_1, X_2)\) の(母)分散共分散行列 \(\Sigma_{22}\) の行列式(一般化分散)は 0 にかなり近くなり,つまり,非正則に近い状況になります.母集団において,このような状況の場合には,大きさ \(n\) の \((Y, X_1, X_2)\) に関する標本を取ってきて,母偏回帰係数を推定する際,\(\Sigma_{22}\) の推定量は非正則に近い状況になると思われます.いわゆる,説明変数間の「多重共線性」が関係してくるかと思います(これらに関しては,多くの専門書で触れられているかと思いますので,そちらをご覧下さい).
なお,母偏回帰係数 \(\beta_1\) の符号(正であるか負であるか)は,\((\rho_{12} - \rho_{13}\rho_{23})\) の符号であり,母偏回帰係数 \(\beta_2\) の符号は, \((\rho_{13} - \rho_{12}\rho_{23})\) の符号であることが式からわかります.
今,各母相関係数が正の場合に,母偏回帰係数 \(\beta_1\) と \(\beta_2\) の符号が異符号(片方は正で,もう一方は負)となる割合(確率)はどれくらいかを考えてみると,母相関係数 \(\rho_{23}\) を止めたとき,\(\beta_1\) と \(\beta_2\) の符号が異符号となる割合(そのような \((\rho_{12}, \rho_{13})\) が存在する割合)は,\(\rho_{23}\) の値となることがわかります.
したがって,各母相関係数が正の場合に,説明変数 \(X_1\) と説明変数 \(X_2\) の母相関係数 \(\rho_{23}\) の値が大きくなるにつれて,\(\beta_1\) と \(\beta_2\) の符号が異符号となる可能性は高まることになります.たとえば, \(\rho_{23}\) が \(0.95\) のときは,異符号となる可能性は,\(95 \%\) となり,かなり高いです.すなわち,母偏回帰係数の分母が 0 に近づくにつれて(つまり,説明変数 \(X_1\) と \(X_2\) の母相関 \(\rho_{23}\) が強くなるにつれて),母偏回帰係数の一方が正の値ならば,もう一方の母偏回帰係数は負の値になる可能性が高まることがわかります.
単純に,説明変数 \(X_1\) から目的変数 \(Y\) を予測するときの母回帰直線の傾きを \(\beta_{(1)}\) とすると \(\beta_{(1)} = \sigma_{12}/\sigma_{22}\) となります.同様に,単純に,説明変数 \(X_2\) から目的変数 \(Y\) を予測するときの母回帰直線の傾きを \(\beta_{(2)}\) とすると \(\beta_{(2)} = \sigma_{13}/\sigma_{33}\) となります.もし,これら \(\beta_{(1)}\) と \(\beta_{(2)}\) の両方が正の値であっても,説明変数 \((X_1, X_2)\) から目的変数 \(Y\) の予測を母平面回帰式で行った場合,\(X_1\) と \(X_2\) の(母)相関係数の2乗 \(\rho_{23}^2\) が限りなく 1 に近いときは(このとき,母偏回帰係数の分母は 0 に近づき),母平面回帰式における(母)偏回帰係数 \(\beta_1\) と \(\beta_2\) は,片方が正の値で,もう片方が負の値になるような可能性が高くなることが理論的にわかります.
したがって,母集団において,説明変数 \(X_1\) と説明変数 \(X_2\) の(母)相関係数の2乗 \(\rho_{23}^2\) がかなり 1 に近い構造を持っているときは,大きさ \(n\) の標本に基づいての,母偏回帰係数の推定値は,標本によって,大きく変動したり,符号が逆転したり,不安定になる可能性があるかと思います(いわゆる,多重共線性に関しては専門書をご覧下さい).
(その 3)
説明変数を \(p\) 個に増やした場合を以下考えます.その場合の(母)回帰モデル((母)重回帰モデル)は, \[ Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \epsilon, E(\epsilon) = 0, V(\epsilon) = \sigma^2 \] で与えられます.なお,\(\beta_0 = \mu_1 - \beta_1\mu_2 - \cdots - \beta_p\mu_{p+1}\) です.
((注意)変数 \(Y, X_1, \cdots, X_p\) の順に,そのまま,母平均を \(\mu_1, \mu_2, \cdots, \mu_{p+1}\) としてありますので,説明変数の添え字(偏回帰係数の添え字)と母平均の添え字がずれていますので注意して下さい).
そして,誤差 \(\epsilon\) の(母)分散は \[ \sigma^2 = \sigma_{11}(1 - \rho_{1(2,\cdots, p+1)}^2) \] であり,\(\rho_{1(2,\cdots,p+1)} \) は \(Y\) と \((X_1, \cdots, X_p)\) との(母)重相関係数です.
予測するための(母)重回帰式は(説明変数の値を止めて,目的変数 \(Y\) の条件付き期待値を取れば), \[ Y^{*} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p \cdots (10) \] で与えられます.
なお, \((Y, X_1, \cdots, X_p)\) の(母)分散共分散行列 \(\Sigma\) は \[ \Sigma = \begin{pmatrix} \sigma_{11} & \cdots & \sigma_{1, p+1} \\ \vdots & \ddots & \vdots \\ \sigma_{p+1,1} & \cdots & \sigma_{p+1, p+1} \end{pmatrix} \] となります.ここに,\(\sigma_{ij} = \sigma_{ji}\) です.また,説明変数 \((X_1, \cdots, X_p)\) のみの(母)分散共分散行列を \(\Sigma_{22}\) とします.つまり, \[ \Sigma_{22} = \begin{pmatrix} \sigma_{22} & \cdots & \sigma_{2, p+1} \\ \vdots & \ddots & \vdots \\ \sigma_{p+1, 2} & \cdots & \sigma_{p+1, p+1} \end{pmatrix} \] です.ここに,(母)偏回帰係数(ベクトル)は \[ \begin{eqnarray*} (\beta_1, \cdots, \beta_p) &=& (\sigma_{12}, \cdots, \sigma_{1, p+1})\Sigma_{22}^{-1} \end{eqnarray*} \] と \[ \beta_0 = \mu_1 - \beta_1\mu_2 - \cdots -\beta_p\mu_{p+1} \] です.また, \(Y\) と \((X_1, \cdots, X_p)\) との(母)重相関係数の2乗は \[ \rho_{1(2,\cdots,p+1)}^2 = \frac{(\sigma_{12}, \cdots, \sigma_{1, p+1})\Sigma_{22}^{-1}(\sigma_{12}, \cdots, \sigma_{1, p+1})^{t}}{\sigma_{11}} \] です.
上記と全く同様にして(行列等の変形がやや面倒ですが),たとえば,(母)偏回帰係数 \(\beta_k ~(k=1,2,\cdots,p)\) は,説明変数 \(X_k\) 以外のすべての説明変数の値を与えたとき(一定にしたとき)の \((Y, X_k)\) の2変量の条件付き分布を考えて,説明変数 \(X_k\) から 目的変数 \(Y\) を予測するときの(母)回帰直線の傾き \(\beta_k^{*}\) と一致します(証明は略します).たとえば,\(k = 1\) の場合を考えてみましょう.説明変数 \((X_2, X_3, \cdots, X_p)\) の値 \((x_2, x_3, \cdots, x_p)\) を与えたときの \((Y, X_1)\) の条件付き2変量正規分布を考えて,説明変数 \(X_1\) から目的変数 \(Y\) の値を予測するときの(母)回帰モデルは \[ Y = \beta_0^{*} + \beta_1^{*} x_1 +\epsilon_1, E(\epsilon_1) = 0, V(\epsilon_1) = \sigma_{1(3,...,p+1)}^2 \] となります.ここに,\(\beta_1^{*}\) は \(\beta_1\) に一致します(証明は略します).
ここに,母偏回帰係数 \(\beta_1\) の分子は,説明変数 \((X_2, \cdots, X_p)\) の値を固定した(与えた)ときの,目的変数 \(Y\) と説明変数 \(X_1\) の(母)偏共分散であり,分母は,説明変数 \((X_2, \cdots, X_p)\) の値を固定した(与えた)ときの,説明変数 \(X_1\) の(母)偏分散であります.すなわち, \[ \beta_1 = \frac{\sigma_{12} - (\sigma_{13}, \cdots, \sigma_{1, p+1})\Sigma_{33}^{-1}(\sigma_{23}, \cdots, \sigma_{2, p+1})^{t}} {\sigma_{22} - (\sigma_{23}, \cdots, \sigma_{2, p+1})\Sigma_{33}^{-1}(\sigma_{23}, \cdots, \sigma_{2, p+1})^{t}} \] と表せます(証明は略します).ここに,\(\Sigma_{33}\) は,説明変数 \((X_2, \cdots, X_p)\) のみの(母)分散共分散行列,つまり, \[ \Sigma_{33} = \begin{pmatrix} \sigma_{33} & \cdots & \sigma_{3, p+1} \\ \vdots & \ddots & \vdots \\ \sigma_{p+1, 3} & \cdots & \sigma_{p+1, p+1} \end{pmatrix} \] です. なお,上記の母偏回帰係数 \(\beta_1\) の分母は, \[ \sigma_{22}(1 - \rho_{2(3,\cdots, p+1)}^2) \] のようにも表せます.ここに,\(\rho_{2(3,\cdots,p+1)} \) は 説明変数 \(X_1\) と説明変数 \((X_2, \cdots, X_p)\) との(母)重相関係数です.
少し補足すると,この母偏回帰係数 \(\beta_1\) は,母分散共分散行列 \(\Sigma\) の 第 \((2,1) \) 余因子と第 \((1,1) \) 余因子の比の (-1) 倍として表せます(あるいは,母分散共分散行列 \(\Sigma\) の逆行列の 第 \((1,2) \) 成分と第 \((1,1) \) 成分の比の (-1) 倍として表せます). 他の母偏回帰係数 \(\beta_i ~(i = 2,\cdots, p) \) も同様に表せます.(線形代数の行列と行列式の話になりますので,導出等の詳細は略します.参考文献 [1],[2],[4] 等をご覧下さい).
また,誤差 \(\epsilon_1\) の(母)分散は
\[
\sigma_{1(3,...,p+1)}^2 = \sigma_{11\cdot 3,...,p+1}(1 - \rho_{12\cdot 3,...,p+1}^2)
\]
です.ここに,\(\sigma_{11\cdot 3,...,p+1}\) と \(\rho_{12\cdot 3,...,p+1}\) は, \((X_2,...,X_p) = (x_2,...,x_p)\) を与えたときの,それぞれ,\(Y\) の(母)偏分散と, \(Y\) と \(X_1\) との(母)偏相関係数です.
また,(母)回帰直線は,上記の(母)回帰モデルで期待値を考えて,また,\(\beta_0^{*}\) の式を変形すると \[ Y^{**} = \beta_{0(x_2,\cdots,x_p)} + \beta_1 x_1 \cdots (11) \] となります.ここに,この直線の切片項は,固定された説明変数の値 \((x_2, \cdots, x_p)\) に依存しており, \[ \beta_{0(x_2,\cdots,x_p)} = \mu_1 - \beta_1 \mu_2 + \beta_2 (x_2 - \mu_3) + \cdots + \beta_p (x_p - \mu_{p+1}) \] となります(証明は略します).したがって,(母)重回帰式(10)と \((x_2,\cdots,x_p)\) を与えての(母)回帰直線(11)の値は一致します.つまり,\(Y^{*}\) は \(Y^{**}\) は等しいです.また,上記の2つの(母)回帰モデルの誤差 \(\epsilon\) と誤差 \(\epsilon_1\) のそれぞれの母分散は,一致します(証明は略します).
(注意点)
(母)回帰直線(11)からわかりますように,たとえば,(母)偏回帰係数 \(\beta_1\) の意味は,説明変数 \((X_2, \cdots, X_p)\) の値 \((x_2, \cdots, x_p)\) を止めて(一定にして),最初に切片項を固定して一つの直線にしてから,次に,説明変数 \(X_1\) の値が,1 だけ増えれば,目的変数 \(Y\) の値は,傾きである \(\beta_1\) だけ増えることを意味しています.
(すなわち,他の説明変数の値を固定(一定に)しない場合は,説明変数 \(X_1\) の値が,1 だけ増えると,目的変数 \(Y\) の値は, \(\beta_1\) だけ増える,ということはいえません(その場合,(母)回帰直線(11)の切片項も同時に動いてしまいますので)).
\(p\) 個の説明変数の値は,通常,セットで考えますので,ある(母)偏回帰係数,たとえば,\(\beta_5\) が負の値のとき,それに関わる説明変数 \(X_5\) は,目的変数 \(Y\) の値を常に減少させるという意味ではありませんので注意が必要です.
なお,標本回帰モデルや具体例を用いての標本偏回帰係数の解釈に関する説明は,たとえば,下記参考文献 [5], [6] 等にわかりやすく詳細に説明されています.
(多重共線性について(説明変数 \(p\) 個のとき))
母偏回帰係数 \(\beta_k ~(k=1, \cdots, p)\) ですが, \(\beta_k\) の分子は,説明変数 \(X_k\) 以外のすべての説明変数の値を与えたときの,目的変数 \(Y\) と説明変数 \(X_k\) の(母)偏共分散であり,\(\beta_k\) の分母は,説明変数 \(X_k\) 以外のすべての説明変数の値を与えたときの,説明変数 \(X_k\) の(母)偏分散であります.もし,\(\beta_k\) の分母の(母)偏分散が 0 にかなり近いときは,説明変数 \(X_k\) と \(X_k\) 以外のすべての説明変数との(母)重相関係数の2乗が 1 にかなり近いときであります.
少なくとも一つのある \(k\) に対して,母偏回帰係数 \(\beta_k\) の分母が 0 にかなり近いときは,説明変数 \((X_1, \cdots, X_p)\) の(母)分散共分散行列 \(\Sigma_{22}\) の行列式(一般化分散)は 0 にかなり近くなり,\(\Sigma_{22}\) は 非正則にかなり近い状況になります.したがって,そのときは,(母)偏回帰係数(ベクトル)は,不安定になるかと思います(\(p\) 個の説明変数の(母)分散共分散行列 \(\Sigma_{22}\) が非正則ならば,母偏回帰係数(ベクトル)は,そのままでは求まりません).
母集団において,このような構造がある場合は,大きさ \(n\) の \((Y, X_1, \cdots, X_p)\) に関する標本を取ってきて,母偏回帰係数(ベクトル)を推定する際, \(\Sigma_{22}\) の推定量は非正則にかなり近い状況になると思われます.いわゆる,説明変数間の「多重共線性」が関係してくるかと思います(これらに関しては,多くの専門書で触れられているかと思いますので,そちらをご覧下さい).
(参考文献)
[1] Pearson, K. (1912): On the general theory of the influence of selection on correlation and variation. Biometrika, Vol.8, pp.437-443.
[2] Cramer, H. (1946): Mathematical Methods of Statistics (Princeton University Press).
[3] 国沢清典 編(1966年): 「確率統計演習2 統計」 (培風館)
[4] 塩谷実・浅野長一郎 著(北川敏男 編)(1967年): 「多変量解析論」 (共立出版)
[5] 奥野忠一・久米均・芳賀敏郎・吉澤正 著 (1972年): 「多変量解析法」 (日科技連)
[6] 河口至商 著 (1977年): 「多変量解析入門 I」 (森北出版)
[7] 塩谷實 著 (1990年): 「多変量解析概論」 (朝倉書店)
[8] 永田靖・棟近雅彦 著 (2003年): 「多変量解析法入門」 (サイエンス社)
(なお,偏回帰係数の解釈等に関しては,他にも多くの論文や書籍があるかと思いますので,詳細はそちらをご覧いただければ幸いです).
(補足)
(1) 質問 Q1 「標本平均の平均は,なぜ母平均に一致するのか?」については こちら からご覧下さい.
(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については こちら
(3) 質問 Q4 「母分散の意味は何か?」については こちら
(4) 質問 Q5 「仮説検定とは何か?」については こちら
(5) 質問 Q6 「区間推定(信頼区間)とは何か?」については こちら
(6) 質問 Q9 「スピアマンの順位相関係数とは何か?(特に,分割表において)」については こちら
(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの スライド
(8) 質問 Q11 「母共分散の意味は何か」については こちら
(9) 質問 Q13 「クラメール連関係数の最大値とその導出」については こちら
戻る |