(母共分散 の意味は何か)
学生から統計学における「母共分散」の意味について,しばしば質問されます; 以下に説明したいと思います.学生の皆さんに少しでもお役に立てれば幸いです.(なお,「母分散」については質問 (Q4) をご覧下さい).
Q11
「母共分散」の意味は何ですか?
A11
推測統計学における母共分散は何を意味しているのかを次の具体例で説明したいと思います.
たとえば,日本人20歳の男性全体(約60万人位でしょうか)の集団(母集団)を考えましょう.この約60万人の男性全体からの任意のひとりを選んだときの身長を \(X\) (cm) ,体重を \(Y\) (kg)とします.ここに \(X\) の母平均を \(\mu_x\),母分散を \(\sigma_x^2\),\(Y\) の母平均を \(\mu_y\),母分散を \(\sigma_y^2\),また,\(X\) と \(Y\) の母共分散を \(\sigma_{xy}\)と記すことにします.
すなわち,\(E(X) = \mu_x\),\(\mbox{Var}(X) = E[(X-\mu_x)^2] = \sigma_x^2\),\(E(Y) = \mu_y\),\(\mbox{Var}(Y) = \sigma_y^2\),\(\mbox{Cov}(X,Y) = E[(X-\mu_x)(Y-\mu_y)] = \sigma_{xy}\) です.なお,母相関係数は \(\mbox{Corr}(X,Y) = \rho = \sigma_{xy}/(\sigma_x \sigma_y)\) です.
一般に,これら母平均,母分散,母共分散(母相関係数)は未知です.
母共分散(その1)
男性全体(母集団)から任意にひとりを選んで身長と体重を測定するとき,これから調査に出かけて測定する前に,これから選ばれる人の身長 \(X\) (cm) と体重 \(Y\) (kg) が,各母平均 \(\mu_x\) と \(\mu_y\) からどれだけずれているか考えたくなります.\(X\) と \(Y\) の母共分散 \(\sigma_{xy}\) は, これから任意に選ばれる人の身長 \(X\) と体重 \(Y\) が,各母平均から積の意味でどれだけずれていると期待できるか(予想できるか)を示しています.つまり,母共分散 \(\sigma_{xy}\) は \((X-\mu_x)(Y-\mu_y)\) の平均(期待値),すなわち,\(\sigma_{xy} = E[(X-\mu_x)(Y-\mu_y)]\) を示しています.
母共分散(その2)
一方,別な考え方として,この60万人の男性全体(母集団)から任意に独立なふたりを選び((身長,体重)に関してふたりの値が影響し合わないような全くの他人どおし(たとえば,双子等でなく,あるいは,食事が同じような寮生活等をしている人でなく)),その任意のふたり(仮にAさんとBさんとして)の(身長,体重)を Aさんは \((X_a, Y_a)\),Bさんは \((X_b, Y_b)\) とします.このとき,母共分散は \(\sigma_{xy} = E[(X_a-X_b)(Y_a-Y_b)]/2\) とも表せます(これは式変形して容易に示せます.また下記の参考文献 [1][2] を参照).
したがって,母共分散 \(\sigma_{xy}\) (正確にはその2倍)は,母集団の男性全体から任意に独立なふたりをこれから選んで測定するとき,(身長,体重)に関して任意のふたりの違いは (身長差と体重差の積,\((X_a-X_b)(Y_a-Y_b)\),の意味で) どれくらいあると期待できるか(予想できるか)を示しているともいえます.
(註1)
母共分散 \(\sigma_{xy}\) は,正,0,または 負の値を取ります.(1)母共分散が正のときは,(たとえば,上記の身長と体重の例では),母集団(約60万人)における任意のふたりにおいて,Aさんの身長 \(X_a\) がBさんの身長 \(X_b\) よりも高いならば,Aさんの体重 \(Y_a\) はBさんの体重 \(Y_b\)よりも少ないよりはむしろ多い傾向にあるといえます.また, (2)母共分散が負ならば,Aさんの身長 \(X_a\) がBさんの身長 \(X_b\) よりも高いならば,Aさんの体重 \(Y_a\) はBさんの体重 \(Y_b\)よりも多いよりはむしろ少ない傾向にあるといえます. そして,(3)母共分散が0のときは,Aさんの身長 \(X_a\) がBさんの身長 \(X_b\) よりも高いならば,Aさんの体重 \(Y_a\) がBさんの体重 \(Y_b\)よりも多い可能性と,Aさんの体重 \(Y_a\) がBさんの体重 \(Y_b\)よりも少ない可能性は同じといえます.
なお,(身長と体重は関連があると思いますが),もし,身長と体重は関連がない(つまり身長 \(X\) と体重 \(Y\) は独立)ならば,身長と体重の母共分散は0(つまり母相関係数は0(無相関))となりますが,逆は真ではありません.つまり,\(X\) と \(Y\) の母共分散が0(母相関係数が0)であっても \(X\) と \(Y\) は独立とは限りません(なお,次の補足を参照).
(補足)
ちなみに,\(X\) と \(Y\) が関連がない(独立)とは,\(X\) の値を任意に与えたとき(\(X=x\) のように),\(Y\) の条件付き分布が \(X=x\) に依存することなく常に同じ分布(つまり \(Y\) の周辺分布と同じ)であることを示しています.すなわち,\(Y\) の値を予測したい場合,\(X\) の値がいくつなのかという \(X\) に関する情報は \(Y\) の予測に全く役立たないことを意味しています.まさに,「\(X\) と \(Y\) は関連がない(独立)」ということであります(無相関とは意味が違います).なお,もし,\((X, Y)\) が2変量正規分布に従う場合は,良く知られているように,「\(X\) と \(Y\) は関連がない(独立)」ということと「\(X\) と \(Y\) は無相関」とは同値になります.
標本共分散(その1)
上記の日本人男性(約60万人くらいか)の母集団から \(n\)人の互いに独立な人の身長と体重を実際に測定することにします(\(n\)人の標本,たとえば,\(n=100\)).(身長,体重)の標本を \((X_1, Y_1), (X_2, Y_2), \cdots ,(X_n, Y_n)\)とします.なお,身長と体重は2変量正規分布に従うとします.身長の母平均 \(\mu_x\) と体重の母平均 \(\mu_y\) の最尤推定量である標本平均は,(良く知られているように)それぞれ次のように与えられます: \[ \overline{X} = \frac{1}{~n~}(X_1 + \cdots + X_n), \] \[ \overline{Y} = \frac{1}{~n~}(Y_1 + \cdots + Y_n) \] また,身長の母分散 \(\sigma_x^2\) と体重の母分散 \(\sigma_y^2\) の最尤推定量である標本分散はそれぞれ次のように与えられます: \[ S_x^2 = \frac{1}{~n~}\left((X_1-\overline{X})^2 + \cdots + (X_n-\overline{X})^2\right), \] \[ S_y^2 = \frac{1}{~n~}\left((Y_1-\overline{Y})^2 + \cdots + (Y_n-\overline{Y})^2\right) \] さらに,身長と体重の母共分散 \(\sigma_{xy}\) の最尤推定量である標本共分散は次のように与えられます: \[ S_{xy} = \frac{1}{~n~}\left((X_1-\overline{X})(Y_1-\overline{Y}) + \cdots + (X_n-\overline{X})(Y_n-\overline{Y})\right) ~ \qquad (1) \]
標本共分散(その2)
また,標本共分散 \(S_{xy}\) は次のようにも表すことができます. \[ S_{xy} = \frac{1}{2n^2}\sum_{i=1}^{n}\sum_{j=1}^{n}(X_i-X_j)(Y_i-Y_j) ~ \qquad (2) \] これは(上記に示したように)母集団において,母共分散は \(\sigma_{xy} = E[(X_a-X_b)(Y_a-Y_b)]/2\) と表せるので, それに対応しての標本版と見なせると思います.(証明は \(S_{xy}\) を式変形して容易に (1)と(2)が一致することがわかります).
(例 1) 「ある市の小学生全体の集団(母集団)」において教科の,たとえば,「算数」と「音楽」の成績に関する母共分散(あるいは母相関係数)を推定して見ましょう.
(なお,この例では,算数と音楽の成績の各母平均を推定することは不可能(標本平均が求まらない)ということに注意しましょう).
実際に3人の児童に対して算数と音楽の「成績の差」のみを知ることができたとします.なお,直接の成績は教えてもらうことができないとします.(ここでは標本数は \(n = 3\) とします).各教科の成績は0点から100点までの評価とします.3人の児童をAさん,Bさん,Cさんとします.算数の成績に関して,AさんはBさんよりも10点高く,BさんはCさんよりも70点高いです.また,音楽の成績に関しては,AさんはBさんよりも70点高く,BさんはCさんよりも10点低いです. これら3人の児童の標本値の差のみから母集団における算数と音楽の成績の(未知の)母共分散 \(\sigma_{xy}\) (あるいは母相関係数 \(\rho = \sigma_{xy}/(\sigma_x \sigma_y)\)) の推定を考えてみましょう.
標本共分散 \(S_{xy}\) を求めてみましょう.Aさん,Bさん,Cさんの直接の成績の標本値は得られていなくて標本の差のみが得られています.したがって,算数と音楽の成績の各標本平均 \(\overline{X}\) と \(\overline{Y}\)を求めることができません.すなわち,標本共分散 \(S_{xy}\) は上記の式(1)では求めることができませんので,式(2)を用いて求めることにします:
\[ \begin{eqnarray*} S_{xy} &=& \frac{1}{2\times 3^2}\left( (x_1-x_2)(y_1-y_2)+(x_1-x_3)(y_1-y_3)+(x_2-x_3)(y_2-y_3)\right)\times2 \\ &=& \frac{1}{~9~}(10 \times 70 + 80 \times 60 + 70 \times (-10)) \\ &=& 533.3 \end{eqnarray*} \] (少数第2位を四捨五入してあります).
なお,算数の母分散 \(\sigma_x^2 \) の推定値である標本分散の値は(質問Q4のところで述べた式を用いて) \[ \begin{eqnarray*} S_{x}^2 &=& \frac{1}{2\times 3^2}\left( (x_1-x_2)^2+(x_1-x_3)^2+(x_2-x_3)^2\right)\times2 \\ &=& \frac{1}{~9~}(10^2 + 80^2 + 70^2) \\ &=& 1266.7 \end{eqnarray*} \] 同様に,音楽の母分散 \(\sigma_y^2 \) の推定値である標本分散の値は \[ S_{y}^2 = 955.6 \] したがって,算数と音楽の母相関係数 \(\rho\) の推定値である標本相関係数の値は \[ r = \frac{S_{xy}}{S_{x}S_{y}} = 0.485 \] となります.
Q12
「母共分散」はオッズ比 (odds ratio) を用いてどのように表せますか?
A12
(準備)
連続型でも(下記の(註5)のように)同様に表せますが,ここでは離散型を中心に説明します.確率変数 \(X\) と \(Y\) は次の離散型確率分布に従うとします: \[ P(X=i, Y=j) = p_{ij} \quad (i = 1, \cdots ,r; j = 1, \cdots ,c) \] つまり,2元 \(r\times c\) 分割表を考えます.なお,\(\{p_{ij} \gt 0\}\) とします.このとき, 第 \(i\) 行, \(s\) 行と第 \(j\) 列, \(t\) 列に対するオッズ比は \[ \theta_{is;jt} = \frac{(p_{ij}/p_{sj})}{(p_{it}/p_{st})} = \frac{p_{ij}p_{st}}{p_{sj}p_{it}} \quad (1\leq i \lt s \leq r; 1\leq j \lt t \leq c) \] で与えられます.これは行変数 \(X\) の値が \(s\) よりも \(i\) である可能性(オッズ)は,列変数 \(Y\) の値が \(t\) よりも \(j\) の方が \(\theta_{is;jt}\) 倍高いことを示しています.
(註2)
ところで,行変数 \(X\) と列変数 \(Y\) が「独立」(関連がない(無連関))とは,\((X, Y)\) の同時分布が周辺分布の積で表せることであります.つまり, \[ P(X=i, Y=j) = P(X=i)P(Y=j) \quad (i=1,\cdots, r; j=1, \cdots ,c) \] のときであります.また, \(X\) と \(Y\) が「独立」であることは,次のようにすべてのオッズ比が1に等しいことと同値であります: \[ \theta_{is;jt} = 1 \quad (1\leq i \lt s \leq r; 1 \leq j \lt t \leq c) \] つまり,行変数 \(X\) と列変数 \(Y\) が「独立」(関連がない(無連関))とは,行変数 \(X\) の値が \(s\) よりも \(i\) である可能性(オッズ)は,列変数 \(Y\) の値に依らずに常に一定であることを示しています.
(Q12の回答)
\(X\) と \(Y\) の母共分散 \(\sigma_{xy}~( = \mbox{Cov}(X,Y))\) はオッズ比を用いて次のように表せます: \[ \sigma_{xy} = \sum_{i=1}^{r-1}\sum_{s=i+1}^{r} \sum_{j=1}^{c-1}\sum_{t=j+1}^{c}(s-i)(t-j)p_{it}p_{sj}(\theta_{is;jt} - 1) \qquad (3) \] (補足)上記の母共分散(その2)から容易に求まりますが,詳細は略します(また参考文献 [3][4] 参照).
(註3)
したがって,式(3)から,(i) すべてのオッズ比が1よりも大きいならば,母共分散の値は正となることがわかります(なお,逆は必ずしも成り立つとは限りません).また,(ii) すべてのオッズ比が1よりも小さいならば,母共分散の値は負となることがわかります.さらに,(iii) すべてのオッズ比が1に等しい(つまり,\(X\) と \(Y\) が独立)ならば,母共分散は0となることがわかります(なお,逆は必ずしも成り立つとは限りません).
(註4)
オッズ比の構造を示した Goodman (1979) の一様連関モデルは次のように与えられます(参考文献 [5][6]): \[ \theta_{is;jt} = \theta^{(s-i)(t-j)} \quad (1\leq i \lt s \leq r; 1 \leq j \lt t \leq c) \] ここに,\(\theta\) は未知です.また,このモデルは,\(X\) と \(Y\) の隣接したカテゴリに関するオッズ比である局所オッズ比が一定であることを示しています.すなわち,一様連関モデルは \[ \theta_{i,i+1;j,j+1} = \theta \quad (i=1, \cdots, r-1; j=1, \cdots, c-1) \] のように表せます(参考文献 [5][6]).この一様連関モデルが成り立つときは,上記の式(3)より,「すべてのオッズ比が1に等しい(つまり,\(X\) と \(Y\) が独立)」ことと,「母共分散が0」であることとは同値です(参考文献 [3]).
(註5)
連続型の確率変数 \(X\) と \(Y\) を考え,確率密度関数 \(f(x,y)\) をもつとします.\(f(x,y)\) は2次元空間全体(または長方形)の \((x,y)\) の領域で正とします.このとき,\(X\) と \(Y\) の母共分散は式(3)と同様な式が成り立ちます.詳細は略しますが,式(3)で和を(4重)積分に,\(i, s, j, t\) を,
たとえば,\(x, u, y, v\) \((x\lt u,~y\lt v)\) に, \(\{p_{ij}\}\) を \(\{f(x,y)\}\) に,\(\theta_{is;jt}\) を確率密度関数のオッズ比 \(\theta_{x,u:y,v}\) に置き換えた式(3)が成り立ちます(証明は略します).
特に,2変量正規分布のときは,オッズ比部分は次のようになります:
\[
\theta_{x,u:y,v} = \phi^{(u-x)(v-y)},
\]
ただし
\[
\phi = \mbox{exp}\left[ \frac{\rho}{\sigma_x \sigma_y (1-\rho^2)} \right].
\]
したがって,2変量正規分布のときは,「任意のオッズ比部分が1に等しい(つまり,\(X\) と \(Y\) が独立)」ことと,「母共分散が0」であることとは(連続版の式(3)から)同値であることがわかります.
(註)
確率密度関数のオッズ比に関する別なアプローチとしては,たとえば,文献 [7][8][9]参照.
(参考文献)
[1] 清水邦夫 著 (2020年): 「相関係数」 (近代科学社)
[2] 瀬尾隆 監修;下川朝有・八木文香・宮岡悦良 著 (2024年): 「入門 数理統計学演習」 (東京図書)
[3] Tomizawa, S., Miyamoto, N. and Sakurai, M. (2008): Decomposition of independence model and separability of its test statistic for two-way contingency tables with ordered categories. Advances and Applications in Statistics, Vol.8, pp.209-218
[4] Tahata, K., Miyamoto, N. and Tomizawa, S. (2008): Decomposition of independence using Pearson, Kendall and Spearman's correlations and association model for two-way classifications. Far East Journal of Theoretical Statistics, Vol.25, pp.273-283.
[5] Goodman, L.A. (1979): Simple models for the analysis of association in cross-classifications having ordered categories. Journal of the American Statistical Society, Vol.74, pp.537-552.
[6] Agresti, A. (1984): Analysis of Ordinal Categorical Data. Wiley.
[7] Kotz, S., Balakrishnan, N. and Johnson, N.L. (2000): Continuous Multivariate Distributions. Wiley, pp.73-75.
[8] Balakrishnan, N. and Chin-Diew Lai (2009): Continuous Bivariate Distributions. Springer, pp.168-170.
[9] Iki, K., Tahata, K. and Tomizawa, S. (2012): Decomposition of symmetric multivariate density function. SUT Journal of Mathematics, Vo.48, pp.199-211.
(註)
(1) 質問 Q1 「標本平均の平均(期待値)は,なぜ母平均に一致するか?」については こちら からご覧下さい.
(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については こちら
(3) 質問 Q5 「仮説検定とは何か?」については こちら
(4) 質問 Q6 「区間推定(信頼区間)とは何か?」については こちら
(5) 質問 Q7 「回帰モデルにおける偏回帰係数とは何か?」については こちら
(6) 質問 Q9 「スピアマンの順位相関係数とは何か?(特に,分割表において)」については こちら
(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの スライド
(8) 質問 Q13 「クラメール連関係数の最大値とその導出」については こちら
戻る |