統計教育; 統計の授業における学生からの質問(Q13) (富澤貞男)東京理科大学

 (クラメール(Cramer)の連関 (association) 係数の最大値や導出は?)


 学生から統計学における二元分割表のクラメール連関係数が最大となるのはどのような場合か,その導出等しばしば質問されます; わかりにくいようですので以下に説明したいと思います.学生の皆さんに参考にしていただければ幸いです.


Q13
  クラメール連関係数が最大となるのはどのような場合ですか?

A13
 最初にクラメール連関係数とは何かを簡単に説明します(なお,種々の専門書に説明がありますので詳細はそちらをご覧下さい).

(クラメール連関係数とは何か)

 2次元(2元)\(r \times c\) 分割表を考えます.離散型の確率変数を \((X, Y)\) とし,その同時確率分布を \[ P(X = i, Y =j) = p_{ij} \   (i = 1, \cdots, r; j = 1, \cdots, c) \] とします.行変数 \(X\) と列変数 \(Y\) の周辺分布は \[ P(X = i) = \sum_{t=1}^{c}p_{it} \ (= p_{i+}), \   P(Y = j) = \sum_{s=1}^{r} p_{sj} \ (= p_{+j}) \] です.母集団において任意の一つの観測値が \(r \times c\) 分割表の \((i, j)\) セルに入る確率は \(p_{ij}\) です.

 また,母集団から無作為抽出された大きさ \(n\) の標本のうち,\((i, j)\) セルに入る観測度数を \(n_{ij}\) とします.また \[ n_{i+} = \sum_{t=1}^{c}n_{it}, \quad n_{+j} = \sum_{s=1}^{r}n_{sj} \quad (i = 1, \cdots, r; j = 1, \cdots, c) \] とします.このとき全標本数 \(n\) は \[ n = \sum_{s=1}^{r}\sum_{t=1}^{c}n_{st} \] です.

 行変数 \(X\) と列変数 \(Y\) が独立(関連がない(無連関))とは, \[ P(X = i, Y =j) = P(X = i) P(Y = j) \   (i = 1, \cdots, r; j = 1, \cdots, c), \] すなわち \[ p_{ij} = p_{i+}p_{+j} \   (i = 1, \cdots, r; j = 1, \cdots, c), \] が成り立つことです.

 この独立性の帰無仮説に対して,ピアソン(Pearson)の適合度カイ2乗検定統計量は \[ \chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(n_{ij} - n_{i+}n_{+j}/n)^2}{n_{i+}n_{+j}/n} \] で与えられます.この検定統計量は,帰無仮説の下で,\(n\) が十分大のとき,漸近的に自由度 \((r-1)(c-1)\) のカイ2乗分布に従います.


(クラメール連関係数(標本版))

クラメール係数(Cramer,1946(参考文献[1]))は次のように与えられます: \[ \frac{\chi^2/n}{\mbox{min}(r-1,c-1)} \] ここに,\(\mbox{min}(r-1,c-1)\) は \(r-1\) と \(c-1\) の最小値です.なお,このクラメール係数は,0以上で1以下の値を取ります.


(クラメール連関係数(母集団版))

 上記のクラメール係数を母集団版で考えてみましょう.標本比率 \(n_{ij}/n ~(= \hat{p}_{ij})\) を確率(母比率) \(p_{ij}\) に置き換えて,母集団版のクラメール係数 \(V^2\) は次のように与えられます(参考文献 [2]): \[ V^2 = \frac{\Phi^2}{\mbox{min}(r-1,c-1)} \] ただし \[ \Phi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(p_{ij} - p_{i+}p_{+j})^2}{p_{i+}p_{+j}} \] この \(\Phi^2 \) はピアソン係数です.


 クラメール係数 \(V^2\)の取り得る範囲は次の通りです: \[ 0 \leq V^2 \leq 1 \] このクラメール係数が0となるのは \(X\) と \(Y\) が独立(無連関)のときに限ります.


(Q13の回答)

 ここでは,行と列の周辺確率は正(0でない)とします: \[ p_{i+} \gt 0, \quad p_{+j} \gt 0 \quad (i = 1, \cdots, r; j = 1, \cdots, c) \] クラメール係数 \(V^2\)が最大値 1 に到達するのはどのような場合か,すなわち,ピアソン係数 \(\Phi^2\) が \(\mbox{min}(r-1,c-1)\) に到達するのはどのような場合か,について学生からの質問が多いですので,以下に説明します:

 ここでは,\(r \times c\) 分割表において \(r \gt c\) のときを考えます.ピアソン係数は次のように変形できます: \[ \begin{eqnarray*} \Phi^2 &=& \left(\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{p_{ij}^2}{p_{i+}p_{+j}}\right )- 1 \qquad (1) \\ &\leq& \left(\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{p_{i+}p_{ij}}{p_{i+}p_{+j}}\right) - 1 \qquad (2) \\ &=& \left(\sum_{i=1}^{r}\sum_{j=1}^{c}\frac{p_{ij}}{p_{+j}}\right) - 1 \qquad (3) \\ &=& \left(\sum_{j=1}^{c}1\right) - 1 \qquad (4)\\ &=& c - 1 \end{eqnarray*} \]


(最大値に到達するのはどのような場合か)

 ここで重要なことは \(\Phi^2\) が最大値に到達する場合,つまり(等号付きの)不等式のところで等号が成り立つ場合は,存在してどのような場合かを考えることであります.つまり,\(r \gt c\) のとき,式(1)(2)のところで,すべての \(i\) と \(j\) \((i = 1, \cdots, r; j = 1, \cdots, c)\) に対して,常に等式 \[ \frac{p_{ij}^2}{p_{i+}p_{+j}} = \frac{p_{i+}p_{ij}}{p_{i+}p_{+j}} \] が成り立つのは,各 \(i\) 行において,ある一つの \(p_{ij}\) が正(0でない)で, \(i\) 行内の残りすべての \(p_{ij}\) が \(0\) となる場合に限ります(特に,\(p_{ij}=0\) となる任意の \((i,j)\) に対しても等式が成り立つということが重要です).したがって,式(3)(4)から最大値は \(c-1\) になります(\(r \gt c\) のとき).同様に,\(r \leq c\) のときは,最大値は \(r-1\) になります.


(註1) 

 学生はしばしば,\(\Phi^2\) の最大値は \((rc-1)\) と間違える場合があります.これは,同時に \(p_{ij} \leq p_{i+}\) と \(p_{ij} \leq p_{+j}\) の関係(すなわち,\(p_{ij}^2 \leq p_{i+}p_{+j}\))を用いて上記の式(1)から式(2)以降へ不等式で式変形をしてしまうからです.この場合は真の不等式は成り立ちますが,等号が成り立たなくなります(すべての \(i\) と \(j\) に対して常に等号が成り立つとはいえません.特に,\(p_{ij}=0\) となる \((i,j)\) に対して等式が成り立ちません).したがって \((rc-1)\) は \(\Phi^2\)の上界の一つではありますが,最大値ではありません(最大値を超えてしまいます)ので注意が必要です.


(註2)

 行変数を \(X\), 列変数を \(Y\) とする \(r \times c\) 分割表で \(r \gt c\) とします.クラメール係数 \(V^2 = 0\) のときは,\(X\) と \(Y\) は独立(無連関)であり,\(X=i\) を与えたときの \(Y\) の条件付き分布は \(X\) の値に依存することなく常に \(Y\) の周辺分布と同じになります.すなわち,\(Y\) の値を予測したい場合,\(X\) に関する情報は \(Y\) を予測するのに全く役立たない(\(X\) と \(Y\) は無連関)ことになります.

 逆に,\(V^2 =1\) のときは(ただし,\(r \gt c\) のとき),各 \(i\) 行において,ある一つの \(p_{ij}\) が正(0でない)で, \(i\) 行内の残りすべての \(p_{ij}\) が \(0\) となりますので,\(X\) の情報を (\(X\) の値を) 知ることにより,\(Y\) の予測は完全に的中することになります(完全連関).(\(r \leq c\) のときも同様なことがいえます(詳細は略)).


(註3)\(V^2\) の一般化

 クラメール係数 \(V^2\) の一般化については,たとえば,参考文献 [3][4] をご覧下さい.


(参考文献)
[1] Cramer, H. (1946): Mathematical Methods of Statistics. Princeton University Press.
[2] Bishop, Y.M., Fienberg, S.E. and Holland, P.W. (2007): Discrete Multivariate Analysis. Springer.
[3] Tomizawa, S., Miyamoto, N. and Houya, H. (2004): Generalization of Cramer's coefficient of association for contingency tables. South African Statistical Journal, Vol.38, pp.1-24.
[4] Urasaki, W., Nakagawa, T., Momozaki, T. and Tomizawa, S. (2024): Generalized Cramer's coefficient via f-divergence for contingency tables. Advances in Data Analysis and Classification, Vol.18, pp.893-910.


(註)

(1) 質問 Q1 「標本平均の平均(期待値)は,なぜ母平均に一致するか?」については  こちら からご覧下さい.

(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については  こちら 

(3) 質問 Q5 「仮説検定とは何か?」については  こちら 

(4) 質問 Q6 「区間推定(信頼区間)とは何か?」については  こちら 

(5) 質問 Q7 「回帰モデルにおける偏回帰係数とは何か?」については  こちら 

(6) 質問 Q9 「スピアマンの順位相関係数とは何か?(特に,分割表において)」については  こちら 

(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの  スライド  

(8) 質問 Q11 「母共分散の意味は何か」については  こちら

戻る