(母分散の意味は何か)
学生から統計学に関して次のような質問をしばしば受けます:「母分散」の意味は何ですか? また,標本分散との違いは何ですか?; 以下に具体例で説明したいと思います.学生の皆さんに少しでもお役に立てれば幸いです.
Q4
母分散の意味は何ですか?
A4
推測統計学における母分散は何を意味しているのかを次の具体例で説明したいと思います.
ある地域に住んでいる20歳の男性全体(たとえば,約10万人)の集団(母集団)を考えましょう.この10万人の男性全体からの任意のひとりを選んだときの身長を X (cm) とすると,X は平均(母平均という)μ(ミュー),分散(母分散という)σ^2(シグマの2乗)の正規分布(N(μ, σ^2)と記す)に従うとします.ここに母平均 μ (= E(X)) と 母分散 σ^2 (= V(X)) は未知です.
母分散
男性全体(母集団)から任意にひとりを選んで身長を測定するとき,これから調査に出かけて測定する前に,これから選ばれる人の身長 X (cm) が,母平均 μ からどれだけずれているか考えたくなります.母分散 σ^2 は, これから任意に選ばれる人の身長 X (cm) が,母平均 μ からどれだけ ずれていると期待できるか(予想できるか)を示しています.つまり,σ^2 は (X-μ)^2 の平均(期待値),すなわち,σ^2 = E[(X-μ)^2] を示しています.
母分散
一方,別な考え方として,この10万人の男性全体(母集団)から任意に独立なふたりを選び(お互いの身長の値が影響し合わないような全くの他人どおし(たとえば,双子等でなく,あるいは,食事が同じような寮生活をしている人でなく)),そのふたりの身長を Xa (cm) と Xb (cm) とします.このとき,母分散は σ^2 = E[(Xa-Xb)^2]/2 とも表せます(下記の(補足 1)を参照).(また参考文献 [2] を参照).
したがって,母分散 σ^2 は(正確にはその2倍が),母集団の男性全体から任意に独立なふたりをこれから選んで測定するとき,ふたりの身長の違いは ((Xa-Xb) の2乗の意味で) どれくらいであると期待できるかを示しているともいえます.
標本分散
母平均 μ と母分散 σ^2 はここでは未知ですので,標本に基づき推定することを行います.この地域の約10万人の20歳の男性全体(母集団)からの n 人の互いに独立な人の身長を実際に測定することにします(n 人の標本,たとえば,n=100).身長の標本を X1, X2, ..., Xn (cm) とします.母平均 μ (未知)と母分散 σ^2 (未知)の推定量は,特に,最尤推定量は,それぞれ,標本平均 M と標本分散 S^2 です.ここに
M = (X1 + X2 + ... + Xn)/n,
(1) S^2 = {(X1-M)^2 + (X2-M)^2 + ... + (Xn-M)^2}/n
(標本平均は,通常,Xバーで書きますが,ここでは M とします).なお,標本平均と標本分散は多くの統計の専門書等に説明されていますので詳細はそちらをご覧下さい(参考文献 [1]).
また,標本分散 S^2 は次のようにも表すことができます.すなわち,標本 X1, X2, ..., Xn に対して
(2) S^2 = (W^2)/2, ただし W^2 = (ΣΣ(Xi-Xk)^2)/(n^2) (ここにΣΣは i = 1, 2, ..., n と k = 1, 2, ...,n と動かしての和)
と表せます.これは(上記に示したように)母集団において,母分散は σ^2 = E[(Xa-Xb)^2]/2 と表せるので,それに対応しての標本版と見なせると思います.(証明は W^2 を式変形して容易に (1)と(2)が一致することがわかります).ここに,W^2 は E[(Xa-Xb)^2] (= 2(σ^2)) の推定量です.
(例 1) 上記の「ある地域に住んでいる20歳の男性全体(たとえば,約10万人)の集団(母集団)」の場合の母分散の推定を考えましょう.
実際に3人だけ身長を測ることができたとします(理解しやすいようにここでは標本数は n = 3 とします).それらの値(標本値)は,166.4, 171.2, 177.3 (cm) でした.これらの標本値から母平均 μ と母分散 σ^2 の推定を考えてみましょう.
標本平均値を m,標本分散値を s^2 とします (なお,m は通常は xバー で書きますが,ここでは m とします) .ここに,最初に s^2 の値は上記の(1)を用いることにします:
m = (166.4 + 171.2 + 177.3)/3 = 171.6 (cm)
s^2 = {(166.4-m)^2 + (171.2-m)^2 + (177.3-m)^2}/3 = 19.9
となります.なお,母分散 σ^2 の平方根である母標準偏差 σ の推定値(最尤推定値)は s = 4.5 (cm) となります.(なお,ここではこれらの値は小数第2位を四捨五入しています).
一方,s^2 は上記に示した(2)を用いると次のように求めても同じ値が得られます (n^2 = 9 に注意して):
w^2 = 2{(166.4-171.2)^2 + (166.4-177.3)^2 + (171.2-177.3)^2}/9
s^2 = (w^2)/2 = 19.9
母集団において,母分散 σ^2 は,(身長で考えた場合)任意のひとりの身長 X (cm) の母平均 μ (cm) からのずれがどれくらいであると期待できるかを示しています.また,母分散 σ^2 は,任意の独立なふたりの身長 Xa (cm) と Xb (cm) の違いがどれくらいあると期待できるかを本質的には示しているとも言えます.
(例 2) 母分散の推定値は求まるが,母平均の推定値は求まらない次の例を考えましょう.
(児童はお互いに何メートル離れて風景画の写生をすると期待できるでしょうか)
日本の大きな川,たとえば,利根川を考えましょう.多くの場所の河川敷には遊歩道があり,多くの方が,散歩,犬の散歩,ジョギング等をして楽しんでいます.今,児童 300 人が引率教員とともに 午前 9時にこの東西に広がる遊歩道にやって来ました.集合場所(G地点と呼ぶことにします)で説明を受けた後,午前中,各自が遊歩道の東西の自由な場所で風景画の写生をすることになっています.なお,集合地点(G地点)から少し離れた所の目の前にはきれいな山があります.任意の児童が写生をする場所と集合場所(G地点)との距離を X (m) とします.(なお,各児童は友達の影響を受けることなく,自分の考えで自由に動いて適切な場所で写生をするものとします).
さて,全児童 300 人の中の任意のふたりが写生する場所は距離が何メートル離れていると期待できる(予想できる)でしょうか(正確には,任意のふたりの(距離の2乗)はいくらになると期待できるでしょうか).これは,上記に示しましたように,X の母分散の2倍(2(σ^2)) を示しています. したがって,(2の平方根(約 1.414))x (母標準偏差σ)は,任意のふたりの距離がどれくらいであるかを示しているかと思います(任意のふたりの期待される(距離の2乗)の平方根の意味で).
児童 300人の写生しているところを上空からドローンで写真を撮りました.山が目の前に見える付近で多くの児童が写生していますが,その場所を中心に,東西に散らばって皆さん写生しているようです.今,任意に3人(仮に Aさん,Bさん,Cさんとします)だけ選んで,お互いにどれだけ離れて写生しているかその距離を測定して見ることにしました.その結果,AさんとBさんは距離が 420 m,AさんとCさんは距離が 160 m,そして,BさんとCさんは距離が 580 m ありました.
この任意の3人のお互いの距離の値の情報から,母分散 σ^2 を推定して見ましょう.そこで,標本分散の値 s^2 を上記の式(2)を用いて求めてみることにします: n = 3 に注意して,
w^2 = 2(420^2 + 160^2 + 580^2)/9
s^2 = (w^2)/2 = 59822.22
となります.よって,母分散 σ^2 の平方根である母標準偏差 σ の推定値 s は,約 244.59 (m) となります.(なお,ここではこれらの値は小数第3位を四捨五入しています).よって,全児童 300人の中の任意のふたりの写生している場所間の距離は,(2の平方根(約 1.414))x s より,約 345.85 m であると推定できます.ここに,任意の児童の写生している場所が集合場所から X m 離れていて,X が正規分布に従うならば,(2の平方根(約 1.414))x σ の最尤推定値は 約 345.85 m です.
山が目の前に見える付近を中心に児童が東西に散らばっているので,集合場所からの児童のいる場所(距離) X (m) は正規分布に従っていると仮定できるかと思います.しかし,母平均(μ と記すことにして)は,集合場所から山が目の前に見える付近までの距離かなと予想されますが,母平均 μ は未知でわかりません.そこで,この母平均 μ を推定したいのですが,上記の児童3人のお互いの距離だけの情報からは,母平均 μ を推定できないかと思います(学生の皆さん,推定できますか?).
また,母分散 σ^2 の推定ですが,標本分散(あるいは標本不偏分散(下記の(補足 2)参照))を用いて行いたいのですが,通常よく用いる標本平均値を用いての上記の式(1)の形の標本分散では,直接は求めることはできません.しかし,少し式変形して,式(2)の形の標本分散から母分散 σ^2 の推定ができます.
さらに,任意の児童の写生している場所と集合場所との距離 X (m) が正規分布に従うならば,X が3シグマ範囲,[μ - 3σ, μ + 3σ] に入る確率は,およそ 0.997 (ほぼ確率 1)です.したがって,その範囲の幅(長さ)は 6σ です.したがって,その推定値である 6s の値は,6 x 244.59 = 1467.54 (m) です.それゆえ,全児童 300 人は,この河川敷の遊歩道の約 1467 m の範囲内で風景画の写生をしていると推測できます.なお,上記3人の児童間の距離の情報からは母平均 μ の推定ができないので,この約 1467 m の範囲が,集合場所(G地点)からどれくらい離れたところにあるのかわかりません.つまり,全児童が約 1467 m の範囲内にいるのはわかるのですが,どの辺にいるのか(集合場所から東西のどれくらい離れたところにいるのか)はわかりません.
以上のように,大きさ n の個々の標本値そのものはわからなくても標本間の差がわかれば,母平均 μ は推定できなくても,母分散 σ^2 (また,母標準偏差 σ)の推定は可能であります.
(補足 1)
上記の 母分散は σ^2 = E[(Xa-Xb)^2]/2 となることの補足です.(Xa-Xb)^2 を展開して期待値を取れば容易に示せます.一方,標本 Xa と Xb が独立で,ともに母平均 μ と母分散 σ^2 の同一分布に従うとき,Y = Xa-Xb とおけば,Y は,平均が 0 で分散が 2(σ^2) の分布に従います.したがって Y の分散は, V(Y) = E[(Xa-Xb)^2] = 2(σ^2) となります.したがって,(上記のように)σ^2 = E[(Xa-Xb)^2]/2 となります.
(補足 2)
上記の(1)の標本分散 S^2 ですが,U^2 = n(S^2)/(n-1) とすれば(皆さんご存じのように)U^2 (標本不偏分散) は母分散 σ^2 の不偏推定量です.そして T^2 = n(W^2)/(n-1) とおいて,上記の(2)の部分は,S^2 に替わって,U^2 = (T^2)/2 と表すこともできます. ここに,T^2 は E[(Xa-Xb)^2] (= 2(σ^2)) の不偏推定量です.
(補足 3)
推測統計学において,2変量分布における共分散に関しても,上記と同様にして母共分散と標本共分散の意味や求め方が得られます(説明は略します).
(参考文献)
[1] 国沢清典 編(2021年): 「確率統計演習2 統計」 (培風館)
[2] 清水邦夫 著 (2020年): 「相関係数」 (近代科学社)
[3] 瀬尾隆 監修;下川朝有・八木文香・宮岡悦良 著 (2024年): 「入門 数理統計学演習」 (東京図書)
(註)
(1) 質問 Q1 「標本平均の平均(期待値)は,なぜ母平均に一致するか?」については こちら からご覧下さい.
(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については こちら
(3) 質問 Q5 「仮説検定とは何か?」については こちら
(4) 質問 Q6 「区間推定(信頼区間)とは何か?」については こちら
(5) 質問 Q7 「回帰モデルにおける偏回帰係数とは何か?」については こちら
(6) 質問 Q9 「スピアマンの順位相関係数とは何か?(特に,分割表において)」については こちら
(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの スライド
(8) 質問 Q11 「母共分散の意味は何か」については こちら
(9) 質問 Q13 「クラメール連関係数の最大値とその導出」については こちら
戻る |