統計教育; 統計の授業における学生からの質問(Q6) (富澤貞男)東京理科大学


 (区間推定(信頼区間) とは何か; サンプルサイズ(標本数) はどれくらい必要か,注意点は?)


(授業の補足用の資料)

 統計学における区間推定に関して,学生からしばしば質問されます.以下に,区間推定である信頼区間とは何なのか,サンプルサイズ(標本数)はどれくらい必要か.そして,その意味や注意点等を少し説明したいと思います.

Q6
 区間推定である信頼区間とは何ですか?;その意味は何ですか?

A6
(日常生活における点推定と区間推定)

 たとえば,ある店に強盗が入って,売上金を奪って逃げたとします.その後から警察官がやってきて,「目撃した人はいますか? 強盗の年齢を教えて下さい」と近くにいた人に尋ねました.このとき,目撃者は,次の2通りのどちらかの答え方をするのではと思います.たとえば,「強盗の年齢は,25歳くらいと思います」と答えるか,または,「強盗の年齢は,20歳から30歳くらいと思います」と答えるかのどちらかと思います.前者は,強盗の年齢をズバリ一点で答えているので,「点推定」です.後者は,幅を持たせて区間で答えていますので,「区間推定」です.

 ここでは,後者の「区間推定」を考えます.ところで強盗を目撃した人 が,区間で答えると言っても,区間での答え方は無数あります.たとえば,「強盗の年齢は,5歳から100歳くらいと思います」,あるいは,「強盗の年齢は,25歳2ヶ月から25歳6ヶ月と思います」など,いくらでも区間で答えられます.目撃者をここでは「Aさん」とします.このとき重要なことは,

(1)目撃者のAさんが,強盗の年齢の推定を区間で答えてくれたとき,それが強盗を捜すのに役立つ推定である(つまり,年齢幅が小さい)こと,そして,

(2)警察官が目撃者のAさんに強盗の年齢を尋ねた際,これからAさんが答える区間が強盗の年齢を含んでいる可能性(確率)が高いこと(たとえば,0.95 または 0.99),

が重要です.一般に,折角,目撃者が「強盗は,5歳から100歳くらいと思います」と答えてくれても,確かにほぼ 100 % 当たっていると思いますが,強盗を捜すには,年齢幅がありすぎて役に立ちません.また,「強盗の年齢は,25歳2ヶ月から25歳6ヶ月と思います」と答えてくれても,その情報は確かなのか疑ってしまいます.


(区間推定)

 たとえば,日本人20歳の男性全体(約60万人)の集団(母集団)を考えます.今,身長に関心があるとします.60万人の中から任意にひとり選んだヒトの身長を X (cm) とします.X は母平均 μ(ミュー),母分散 σ^2(シグマの2乗)の正規分布に従うとします(N(μ, σ^2)と記すことにします).ここに母平均 μ は未知とし,母分散 σ^2 は既知(ここでは,σ^2 = (7.0)^2,つまり,母標準偏差は σ = 7.0)とします.

 これから,日本中に調査しに出かけて,n人(たとえば,100人)の身長を X1, X2, ..., Xn (cm) とします.そして,標本平均を M = (X1 + X2 + .... + Xn)/n とします. 点推定では,母平均 μ の推定を,たとえば,一点,標本平均 M で推定します.

 区間推定では,区間 [M - a, M + b] で母平均 μ を推定します.ここに,a と b は正の定数です.このとき,a と b をどのように決めるのかが大切になってきます.もし,a と b を限りなく大きく取れば,区間の幅(長さ)は限りなく大きくなり,未知の母平均 μ を 100 % 含んでいます.しかし,それでは区間で推定しても,役に立たず,未知の母平均 μ を推定したことにはなりません.(上記の強盗の例で,「強盗の年齢は,5歳から100歳くらいと思います」と答えることと同じことで役に立ちません).

 区間の幅(長さ)を小さく,つまり,正の定数である a と b を小さく,そして,区間での推定が未知の母平均 μ を,高い信頼度(100 % でなく,たとえば,95 % )で含むように,a と b を決めることが大切になってきます. そこで,身長の標本調査に出かける前に(標本の値(数値)を具体的に得る前に),この区間が未知の母平均 μ をきちんと含んでいる確率が 0.95(95%) となるような a と b を用いて区間を作ります.なお,この確率 0.95 ですが,一般には,1-α(アルファ) (ただし 0 < α < 1)とし,信頼係数(あるいは信頼度)と呼ばれています.特に,α = 0.05,α = 0.01 (つまり,信頼係数が 0.95 や 0.99)がよく用いられます.そのときの区間は,母平均 μ の 信頼区間 と呼ばれています(参考文献 [1] 参照).

 ところで,このような信頼区間は無数作ることができます.その中で,信頼区間の幅(長さ)が最小な区間を用いたくなります.つまり,a + b [= (M + b) - (M - a)] を最小にする a と b を求めてみましょう.標本平均 M が正規分布 N(μ, (σ^2 )/n) に従うことに注意して, たとえば,信頼係数 0.95 のとき,a = b = 1.96σ/√n となります(詳細は略します).ここに,P(M - 1.96σ/√n ≦ μ ≦ M + 1.96σ/√n) = 0.95 が成り立ちます.ここで,σ/√n は標本平均 M の標準誤差です.つまり,信頼係数 0.95 の母平均 μ の無数作ることのできる信頼区間の中で,信頼区間 [M - 1.96σ/√n, M + 1.96σ/√n] が,区間の幅(長さ)が最小になっており,母平均 μ を推定する際,最も役立つ区間推定かと思います.

 なお,この信頼区間の幅(長さ)は,2x1.96σ/√n です(なお,1.96σ/√nは,「精度」と呼ばれています).また,このことからわかりますように,もし標本数 n を多く取ることが可能ならば,区間の幅(長さ)は小さくなります.  


(区間推定に関する注意点(その 1); 標本調査に出かける前の段階で)

 日本人20歳の男性全体(約 60万人)の身長の例で考えましょう(母標準偏差は σ = 7.0 として).

 100人の身長の調査に出かける前に,標本平均 M を用いて,未知の母平均 μ を区間 [M - 1.96x7.0/√100, M + 1.96x0.7/√100],つまり,[M - 1.372, M + 1.372],で推定しようとすると,この区間は未知の母平均 μ をきちんと含んでいるのか含んでいないのか,考えたくなります.標本平均 M は,実際には100人の選び方によって標本値(100人の身長の値)が皆違うので,標本平均 M の値も変動します.したがって,区間 [M - 1.372, M + 1.372] も変動します.

 しかし,信頼係数 0.95 の信頼区間の作り方からして,調査する前の段階で,我々は,これから得られる100人の身長の値から,この方法での信頼区間で推定すれば,この区間が未知の母平均 μ を含んでいる可能性(確率)は 0.95 (95 %) であることがわかります. したがって,この信頼区間で未知の母平均 μ を推定すれば,この区間での推定はかなり高く信頼できます(信頼度は 0.95 (95 %)です).


(区間推定に関する注意点(その 2); 標本調査に出かけた後で)

 実際に調査に出かけて,100人の身長を測定し,標本平均 M の値を計算して標本平均値 m が数値として得られますが,その m を用いて,上記の区間 [M - 1.372, M + 1.372] を実際に数値で求めると [m - 1,372, m + 1.372] となります.たとえば,標本平均値が m = 172.4 (cm) となった場合,母平均 μ の区間での推定値は,[171.028, 173.772] となります.ここに,未知の母平均 μ は「定数」ですので,この区間は,母平均 μ を含んでいるか,含んでいないかのどちらかであります.つまり,数値で得られた区間 [171.028, 173.772] は,母平均 μ を含んでいる確率は 1 か 0 かであります(確率 0.95 ではありません).

 母平均 μ は未知の「定数」であり,我々人間にはわかりませんが(強いて言うならば,神様しかわかりませんが),仮に母平均は μ = 170.2 (cm) とすると, 我々が推定した区間 [171.028, 173.772] は,母平均 μ = 170.2 (cm) を含んでいません(つまり,母平均 μ を含んでいる確率は,0 です).(身長を測定した100人の中に,たまたま背がかなり高いヒトが何人もいたとすると,標本平均の値 m は大きくなり,そのため区間が母平均 μ を含んでいないということは,希ではありますが,ありえることです).

 逆に,たとえば,我々が推定した区間が [168.9,171.644] の場合は, 未知の母平均 μ = 170.2 (cm) を含んでいます(つまり,母平均 μ を含んでいる確率は,1 です).

 なお,実際に調査に出かけて,20歳の男性全体60万人から任意に100人を選んで身長測定して,区間 [M - 1.372, M + 1.372] の値を具体的に数値で求めてみようとすると,理論的には,60万人から100人を選ぶ組み合わせの数(相当に大きな組み合わせの数ですが)の分,いろいろな区間が数値で得られます(実際には,このような測定はしないでしょうし,また,すべての測定は不可能でありますが). 信頼係数が 0.95 ですので,その中で,未知の母平均 μ を含んでいる区間の個数(区間の全個数に対して)の割合は 0.95 程度であるだろう(ぴったりと 0.95 ということではありませんが),すなわち,母平均 μ を含んでいない区間の個数(区間の全個数に対して)の割合は 0.05 程度であるだろう,ということを示しているかと思います(参考文献 [1] 他 参照).


 (サンプルサイズ(標本数)の設計)

 母平均に関する上記の信頼区間を求める際,未知の母平均 μ と標本平均 M とのずれ(誤差)|M - μ| を確率 0.95 以上で,ある値以下(たとえば,d/2 以下)にしたい,あるいは,信頼係数 0.95 の母平均 μ の信頼区間の幅(長さ)をある値以下(d 以下)にしたい,という場合がよくあります.これらは,一般に,標本数を多く取れば求まるかと思います.つまり,サンプルサイズ(標本数)をどれくらいに取れば良いかを,試験や調査等を行う前に決めたい場合があります.サンプルサイスの設計はどのようにすれば良いでしょうか(たとえば,参考文献 [5], [6] 参照).ここでは,次の例でサンプルサイスをどのように決めるかを考えたいと思います.



(例) 全国でいつも野球をしている小学6年生の男子の身長は 何cm と推定できますか? サンプルサイズ(標本数)はどれくらい必要ですか?

 全国で普段からいつも野球をしている少年は何十万人もいるといわれています.小学生の成長はかなり早いので,いつも野球をしている「小学6年生」の男子に絞って身長を考えてみます.(なお,野球をしている少年は,もしかすると背がやや高い子が多いかもしれませんので,野球少年の身長を調べることは興味深いことかと思います).

 全国でいつも野球をしている数十万人の男子の小学6年生(母集団)の中から,任意にひとり選んだ人の身長の値 X (cm) は,母平均が μ (cm),母標準偏差 σ が 7.5 (cm) の正規分布に従うとします(過去の類似の調査から標準偏差はわかっているものとします).母平均 μ (cm) を信頼係数が 0.95 の信頼区間で推定することにします.

 普段からいつも野球をしている少年の多くは,プロ野球が好きであると思います.プロ野球のオフシーズンには,ファン感謝のイベント(11月頃でしょうか)が行われていますが,そのイベントには,いつも野球をしている小学生が多く来ていると思いますので,そのイベント参加者の小学生の身長を測定することにしましょう.


(1)最初に サンプルサイズ を求めてみましょう:

 イベントに参加したいつも野球をしている小学6年生は何千人もいて非常に多いため,全員の身長を測定することはできません.そこで,イベント参加者の中から,いつも野球をしている男子の小学6年生を n 人選ぶことにします.その選ばれた n 人の身長をこれから測定するときの測定値を X1, X2, ..., Xn とします.そして,標本平均 M (= (X1 + X2 + ... + Xn)/n) と(全国のいつも野球をしている小学6年生の)身長の母平均 μ (cm) とのずれ(誤差), |M - μ| が 1.0 cm 以下(ここでは d/2 = 1.0 cm 以下に関心があるとして)となる確率が,0.95 以上 となるように n 人選ぶことにしたいと思います.少なくとも何人の(いつも野球をしている)小学6年生を選べば良いかを最初に考えてみます.(一般に,測定する小学6年生の人数 n が増えれば,ずれ(誤差)である |M - μ| は小さくなる傾向にあります).

 信頼係数が 0.95 のとき,母平均 μ の信頼区間は,[M - 1.96σ/√n, M + 1.96σ/√n] です(ただし,σ = 7.5).すなわち,P(M - 1.96σ/√n≦ μ ≦ M + 1.96σ/√n) = 0.95 が成り立ちます.つまり, P(|M - μ| ≦ 1.96σ/√n) = 0.95 が成り立っています.ここに, |M - μ| が (d/2 = ) 1.0 cm 以下となる確率が,0.95 以上となるためには,1.96σ/√n (= 14.7/√n) が (d/2 =)1.0 以下であれば良いです.(このとき,信頼区間の幅 2x1.96σ/√n (= (M + 1.96σ/√n) - (M - 1.96σ/√n)) は (d =)2.0 cm 以下です).すなわち,2乗して考えて,n ≧ 216.09 となりますので,いつも野球をしている小学6年生の217名以上を選んで,彼らの身長を測定すれば,標本平均 M と母平均 μ (cm) とのずれ(誤差), |M - μ| が (d/2 =)1.0 cm 以下となる確率は,0.95 以上となります.このときに得られる信頼区間の幅(長さ)は,(d = )2.0 cm 以下となります.ここに,217 名ではやや半端ですので,結局,n = 220 として,(いつも野球をしている)小学6年生 220 名に協力してもらい,彼らの身長を測定することにします.


(2)次に 母平均の 信頼区間 を求めてみましょう:

 選ばれた 220 名の身長を測定したところ,220人の測定値は,148.9, 150.2, ... , 143.4 (cm) となり(途中省略してあります),標本平均 M の値である標本平均値(m と記すことにして)は,m =146.2 (cm) となりました.したがって,信頼係数が 0.95 の母平均 μ (cm) の信頼区間は,[146.2 - 1.96x7.5/√220, 146.2 + 1.96x7.5/√220], すなわち,[145.21, 147.19] となりました.ここに,この信頼区間の幅は,1.98 cm (d = 2.0 cm 以内)です.

 したがって,全国でいつも野球をしている数十万人の男子の小学6年生(母集団)の身長の母平均 μ は,145.21 cm から 147.19 cm であると推定できます.


(註 1) 上記の野球少年の例では,d/2 = 1 (cm) としましたが,関心ある d の取り方によってサンプルサイズ n は違ってきます.


(註 2)サンプルサイズの設計

上記では 区間推定における「信頼区間」に基づくサンプルサイズの設計についての一例を述べましたが,より詳細な説明や,また,仮説検定の「検出力」に基づくサンプルサイズの設計に関しましては,専門書をご覧いただければ幸いです(たとえば,下記の参考文献 [5],[6]).


(参考文献)
[1] 国沢清典 著 (1974年):「統計学初歩」 (日本評論社)
[2] 国沢清典 編(2021年): 「確率統計演習2 統計」 (培風館)
[3] 小林正弘・田畑耕治 著(2021年): 「確率と統計 ; 一から学ぶ数理統計学」 (共立出版)
[4] 兵頭昌・中川智之・渡邉弘己 著(2022年): 「よくわかるRで身につく統計学入門」 (共立出版)
[5] 山本紘司 著(2024年): 「入門 サンプルサイズ設計 - 基本理論から計算方法まで」 (東京図書)
[6] 永田靖 著 (2005年): 「サンプルサイズの決め方」 (朝倉書店)


(補足)

(1) 質問 Q1 「標本平均の平均は,なぜ母平均に一致するのか?」については  こちら からご覧下さい.

(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については  こちら 

(3) 質問 Q4 「母分散の意味は何か?」については  こちら 

(4) 質問 Q5 「仮説検定とは何か?」については  こちら 

(5) 質問 Q7 「回帰モデルにおける偏回帰係数とは何か?」については  こちら 

(6) 質問 Q9 「スピアマンの順位相関係数とは何か?(特に,分割表において)」については  こちら 

(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの  スライド  

(8) 質問 Q11 「母共分散の意味は何か」については  こちら

(9) 質問 Q13 「クラメール連関係数の最大値とその導出」については  こちら

戻る