統計教育; 統計の授業における学生からの質問(Q9) (富澤貞男)東京理科大学

 (スピアマン (Spearman) の順位相関係数とは何か(特に分割表において))


(授業の補足用の資料)

 授業でスピアマンの順位相関係数を説明するのですが,学生から分割表においての相関係数について,しばしば質問されますので少し授業の補足説明をしたいと思います.

Q9
 スピアマン(Spearman) の順位相関係数とは何ですか?

A9

 たとえば,任意のひとりの身長 X (cm) と体重 Y (kg) を考えると,背が高い人は体重も多いかもしれません.身長と体重には関連性(相関)があるかもしれません.どの程度の関連性があるのか(関連性がどの程度強いのか)を測りたくなります.以下では相関係数を考えます.

(1) 母集団版 

 推測統計学の母集団において,連続な2変量確率変数を \((X, Y)\) として,同時分布関数を \(H(x, y)\ (= P(X\leq x, Y\leq y))\) , \(X\) と \(Y\) のそれぞれの周辺分布関数を \(F(x)\ (= P(X\leq x))\) と \(G(y) \ (= P(Y\leq y))\) とします.このとき,皆さんご存じの \(X\) と \(Y\) の(母)相関係数 (\(\rho\) と記す)は \[ \rho = Corr(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)} \sqrt{Var(Y)}} \] で定義されます.ここに,\(Corr(X,Y)\) は \(X\) と \(Y\) の(母)相関係数,\(Cov(X,Y)\) は \(X\) と \(Y\) の(母)共分散,\(Var(X)\) と \(Var(Y)\) は, それぞれ,\(X\) と \(Y\) の(母)分散です.

 そして,\(X\) と \(Y\) のスピアマン の(母)順位相関係数 (\(\rho_s\) と記す)は,周辺分布関数 \(F(X)\) と \(G(Y)\) の(母)相関係数です.そして,良く知られているように,周辺分布関数 \(F(X)\) と \(G(Y)\) は,共に,区間 [0, 1] の一様分布に従います.一様分布の(母)平均は, \(1/2\), (母)分散は \(1/12\) です.したがって,スピアマンの(母)順位相関係数は次のように与えられます: \[ \begin{eqnarray*} \rho_s = Corr(F(X), G(Y)) &=& \frac{Cov(F(X), G(Y))}{\sqrt{\frac{1}{12}} \sqrt{\frac{1}{12}}} \\ &=& 12\ E\left((F(X)-\frac{1}{2})(G(Y) - \frac{1}{2})\right)\\ &=& 12\ E(F(X)G(Y)) - 3 \end{eqnarray*} \]


 母集団(たとえば,20歳の男性全体(おそらく約60万人くらい))から,互いに独立な任意の3人(ここでは,Aさん,Bさん,Cさんと呼ぶことにして)を選んで,たとえば,身長 X (cm) と体重 Y (kg) をAさんは \((X_a, Y_a)\), Bさんは \((X_b, Y_b)\), Cさんは \((X_c, Y_c)\) とします.ここで,(Aさんの身長,Aさんの体重)である \((X_a, Y_a)\) と(Bさんの身長,Cさんの体重)である \((X_b, Y_c)\) のペアに対して(下記の(註 1)を参照),一致(concordance) の確率 と 不一致(discordance) の確率がどれくらい違うのか,その差を考えてみると,差は,本質的にはスピアマンの(母)順位相関係数を表しています.実際, \[ \begin{eqnarray*} \rho_s &=& 3\ (P(condordance) - P(discordance)) \\ &=& 3\ (P((X_a-X_b)(Y_a-Y_c) > 0) - P((X_a-X_b)(Y_a-Y_c) < 0) \\ &=& 12\ Cov(F(X), G(Y)) \end{eqnarray*} \] の関係が得られます(導出は略します).(たとえば,下記の参考文献を参照).

 もし,\(X\) と \(Y\) が独立ならば,\(\rho_s = 0\) となり,上記のペアに関して,一致の確率と不一致の確率は等しくなります.

(註 1)

 上記の身長と体重の例で考えるならば,任意の(Aさんの身長,Aさんの体重)が \((X_a, Y_a)\) で,(Bさんの身長,Cさんの体重)が \((X_b, Y_c)\) です.つまり,\(X_a\) と \(Y_a\) は,一般には「独立でない」ですが,\(X_b\) と \(Y_c\) は「独立」です.この「独立」が非常に重要でして,「独立」が(導出過程で)効いてきて, \((X_a, Y_a)\) と \((X_b, Y_c)\) に関して,一致の確率と不一致の確率の差が,周辺分布関数 \(F(X)\) と \(G(Y)\) の共分散(の4倍)に一致する,つまり,差(の3倍)がスピアマンの(母)順位相関係数であります.

 一方,良く知られたケンドール (Kendall) の \(\tau\) は, 任意の(Aさんの身長,Aさんの体重)である \((X_a, Y_a)\) と (Bさんの身長,Bさんの体重)である \((X_b, Y_b)\) に関して,一致の確率と不一致の確率の差を本質的には表しています(連続型の場合は一致).(なお,詳細は略します).ここに,\(X_a\) と \(Y_a\) は,一般には独立でなく,\(X_b\) と \(Y_b\) も一般には,独立でないことに注意して下さい.


(2) 標本版 

 上の身長と体重の例で,母集団(20歳の男性全体)からの n 人(たとえば,100人)の互いに独立な人(無作為標本)を選ぶとき,得られる身長と体重の値を \[ (X_1, Y_1),\ (X_2, Y_2), \ \cdots, \ (X_n, Y_n) \] とします.そして,\(X_1, \cdots, X_n\) を小さい方から大きい方へ並べ替えて小さい方からの順位を,1 から n まで付けることにします(ただし,同順位(タイ(tie))は,ここではないものとします).標本 \(X_i\) の順位を \(R_i \ (i = 1, \cdots, n)\) とします.同様に,標本 \(Y_i\) の順位を \(S_i \ (i = 1, \cdots, n)\) とします.

 \(X\) の周辺分布関数 \(F(X)\) は一般に未知なので,標本からその推定を考えます.一般に,経験分布関数 \(\hat{F}_n(X)\)で推定します.ここに, 任意の \(x\) に対して, \[ \hat{F}_n(x) = \frac{1}{n}[\{X_k \leq x \} \mbox{となる標本}\ X_k \ \mbox{の個数}] \] で定義します.経験分布関数 \(\hat{G}_n(Y)\) も同様に定義します.したがって \(i = 1, \cdots, n\) に対して \[ \hat{F}_n(X_i) = \frac{R_i}{n} \ (= R_i^*), \   \hat{G}_n(Y_i) = \frac{S_i}{n} \ (= S_i^*) \] です.

 スピアマンの(母)順位相関係数 \(\rho_s\) は,周辺分布関数 \(F(X)\) と \(G(Y)\) との(母)相関係数ですので,その推定量であるスピアマンの(標本)順位相関係数(\(r_s\) と記して)は,経験分布関数 \(\hat{F}_n(X_i)\) と \(\hat{G}_n(Y_i)\) \((i = 1, \cdots, n)\) の標本相関係数で考えます.すなわち \[ r_s = \frac{\frac{1}{n}\sum_{i=1}^{n}(R_i^* - \bar{R}^*)(S_i^* - \bar{S}^*)}{\sqrt{\frac{1}{n}\sum_{i=1}^{n}(R_i^* - \bar{R}^*)^2}\sqrt{\frac{1}{n}\sum_{i=1}^{n}(S_i^* - \bar{S}^*)^2}} \] で与えられます.ここに, \[ \bar{R}^* = \frac{1}{n}\sum_{i=1}^{n}R_i^* , \   \bar{S}^* = \frac{1}{n}\sum_{i=1}^{n}S_i^* \] です.また,次のようにも表されます: \[ \begin{eqnarray*} r_s &=& \frac{\sum_{i=1}^{n}(R_i - \bar{R})(S_i - \bar{S})}{\sqrt{\sum_{i=1}^{n}(R_i - \bar{R})^2}\sqrt{\sum_{i=1}^{n}(S_i - \bar{S})^2}} \\ &=& 1 - \frac{6 D}{n(n^2-1)} \end{eqnarray*} \] で与えられます.ここに, \[ \bar{R} = \frac{1}{n}\sum_{i=1}^{n}R_i = \frac{n+1}{2} , \   \bar{S} = \frac{1}{n}\sum_{i=1}^{n}S_i = \frac{n+1}{2}, \   D = \sum_{i=1}^{n}(R_i - S_i)^2 \] です.

 ここで注意すべき点として,標本数 \(n\) が十分大きいとき, \[ \bar{R}^* = \frac{1}{2} + \frac{1}{2n}\ \rightarrow \frac{1}{2}, \   \frac{1}{n}\sum_{i=1}^{n}(R_i^* - \bar{R}^*)^2 \ \rightarrow \frac{1}{12} \] に近づきます.\(\{S_i^*\}\) に対しても同様になります.

 すなわち,\(\{R_i^*\}\) と \(\{S_i^*\}\) (つまり,経験分布関数 \(\{\hat{F}_n(X_i)\}\) と \(\{\hat{G}_n(Y_i)\}\))のそれぞれの標本平均と標本分散に相当する部分は,標本数 \(n\) が十分大きいとき,周辺分布関数 \(F(X)\) と \(G(Y)\) の従う分布である一様分布の平均 \(1/2\) と分散 \(1/12\) に近づくことがわかります.


Q10
 分割表におけるスピアマン(Spearman) の順位相関係数はどのようになりますか?

A10

(1)

 上の身長 X (cm) と体重 Y (kg) の例では,X と Y は連続量ですが,ひとりひとりの身長と体重の正確な値でなく,おおよその身長と体重に関心がある場合はよくあることです.たとえば,身長を 「(1)160 (cm) 未満(低い)」,「(2)160以上170未満(やや低い)」,「(3)170以上180未満(やや高い)」,「(4)180以上(高い)」のように4つに分けて,n人が各区間(カテゴリ (category) ) に何人ずつ入るか,入った人数(観測度数)に,また,任意のひとりが各カテゴリに属する確率はどれくらいかに関心がある場合はよくあることです.体重も同様にして,たとえば,「(1)痩せている」「(2)普通」「(3)太っている」など,いくつかのカテゴリに分けて,各カテゴリに属する人数(観測度数)や確率に関心がある場合があります.この場合,カテゴリに順序が付いていますので,"順序カテゴリ"と呼びます(この場合,カテゴリの並べ方の順番を入れ替えることはできません).

(他方,たとえば,いくつかの果物の種類があり,任意のひとりが最も好きな果物 T を一つだけ選ぶ場合, T の値を 「(1)イチゴ」「(2)リンゴ」「(3)ミカン」「(4)バナナ」等とすると,カテゴリに順序は付いていなくて,カテゴリの果物の名前の並べ方の順番は任意に入れ替えることが可能です.この場合は,"名義カテゴリ"と呼ばれています).

(2)

 ここでは,カテゴリに順序のある(順序カテゴリ)の 2次元(2元)\(r \times c\) 分割表を考えます.2つの離散型の確率変数を \((W, Z)\) とし,確率を \[ P(W = s, Z =t) = p_{st} \   (s = 1, \cdots, r; t = 1, \cdots, c) \] \[ P(W = s) = \sum_{t=1}^{c}p_{st} \ (= p_{s+}), \   P(Z = t) = \sum_{s=1}^{r} p_{st} \ (= p_{+t}) \] とします.また,\(W\) の周辺分布関数を \(F_s^W = P(W \leq s)~(s = 1, \cdots, r)\) とします.同様に,\(Z\) の周辺分布関数を \(G_t^Z = P(Z \leq t)~(t = 1, \cdots, c)\) とします.

(3)

 また,身長と体重のような連続量の2つの確率変数 \((X, Y)\) に対して,母集団から大きさ \(n\) の互いに独立な標本(無作為標本)を取ってきて,標本を \[ (X_1, Y_1),\ (X_2, Y_2), \ \cdots, \ (X_n, Y_n) \] とします.連続型の行変数(この場合は身長)\(X\) の取り得る値を小さい方から順に \(r\) 個の区間(階級)に分けます.つまり,任意のある人の身長 \(X\) が第 \(s\) 番目の区間(階級)に入るとき,離散型の行変数 \(W\) は \(W = s \ (s = 1, \cdots, r)\) とします.同様に,連続型の列変数(この場合は体重)\(Y\) を \(c\) 個の区間(階級)に分けて,任意のある人の体重 \(Y\) が第 \(t\) 番目の区間(階級)に入るとき,離散型の列変数 \(Z\) は \(Z = t \ (t = 1, \cdots, c)\) とします. このとき,\(r \times c\) 分割表が得られ,\(rc\) 個の区分(セル (cell) ) ができます.

 なお,最初から離散型の大きさ \(n\) の互いに独立な標本を次のように取ってきてもよいです: \[ (W_1, Z_1),\ (W_2, Z_2), \ \cdots, \ (W_n, Z_n) \]

(4)

 大きさ \(n\) の標本のうち,\((s, t)\) セルに入る観測度数を \(n_{st}\) とします.このとき,大きさ \(n\) の標本のうち,行変数 \(W = s\) となる観測度数は,第 \(s\) 行の観測度数の和となり,\(n_{s+}\) と記すことにします.同様に,列変数 \(Z = t\) となる観測度数は,第 \(t\) 列の観測度数の和となり,\(n_{+t}\) と記すことにします. ここに,\(rc\) 個のセルに入る観測度数 \(\{n_{st}\}\) の総和は,全標本数 \(n\) 一致します.

(5)

 上記の質問 Q9 のところで,大きさ \(n\) の標本に対して,連続型の場合の行変数 \(X\) と列変数 \(Y\) のそれぞれの順位 \(\{R_i\}\) と \(\{S_i\}\) を考えました.ここでは,大きさ \(n\) の標本に対して,離散型の場合の行変数 \(W\) と列変数 \(Z\) の順位はどのようになるかを考えます.行変数 \(W\) で最初に考えます.

 行変数(行分類)の第 1 カテゴリ(階級)には,\(n_{1+}\) 個の標本がありますが,すべてが \(W = 1\) ですので,順位を \(1\) から \(n_{1+}\) まで付けることができません.すべてが同順位(中間順位)を付けます: \[ R_1 = \cdots = R_{n_{1+}} = \frac{1}{n_{1+}}(1 + \cdots + n_{1+}) = \frac{n_{1+} + 1}{2} = \frac{n_{1+}}{2} + \frac{1}{2}\  (= u_1) \]
 同様に,第 \(s\) カテゴリ(階級)には,\(n_{s+}\) 個の標本がありますが,すべてが \(W = s\) ですので,同順位(中間順位)は

\[ R_{n_{s-1,+}+1} = \cdots = R_{n_{s-1,+}+n_{s+}} = (n_{1+} + \cdots + n_{s-1,+}) + \frac{n_{s+}}{2} + \frac{1}{2} \  (= u_s) \] となります.

 さらに,順位を標本数 \(n\) で割って 0 から 1 以下になるようにします.すなわち, \[ u_s^* = \frac{u_s}{n} = \hat{r}_s^W + \frac{1}{2n} \  (s =1, \cdots, r), \]

ただし,

\[ \hat{r}_s^W = (\hat{p}_{1+} + \cdots + \hat{p}_{s-1,+}) + \frac{\hat{p}_{s+}}{2}, \ \ \ \hat{p}_{m+} = \frac{n_{m+}}{n} \]

 ここに,\(\hat{p}_{s+}\) は 行変数 \(W\) の周辺確率 \(p_{s+}\) の推定量である標本比率です.また,\(\hat{r}_s^W\) は,行変数 \(W\) の(標本)リジット(ridit (Relative to an Identifical Distribution Integral Transformation)です(たとえば,参考文献 [5] [6] を参照).この(標本)リジットは,離散型の行変数 \(W\) の推定した周辺分布関数(経験分布関数)を用いて \[ \hat{r}_s^W = \hat{F}_{s-1}^W + \frac{1}{2}(\hat{F}_s^W - \hat{F}_{s-1}^W) = \frac{1}{2}(\hat{F}_{s-1}^W + \hat{F}_s^W) \] のようにも表されます.

(6)

 このとき,各カテゴリに同順位があることに注意して, \[ \bar{R^*} = \frac{1}{n} \sum_{i=1}^{n} R_i^* = \frac{1}{n}\sum_{s=1}^r u_s^* n_{s+} = \frac{1}{n}\cdot \frac{n+1}{2} = \frac{1}{2} + \frac{1}{2n} \   (\mbox{ただし,}R_i^* = \frac{R_i}{n}) \] が成り立ちます.

 ここで,注意すべき点として, \[ u_s^* - \bar{R^*} = \left(\hat{r}_s^W + \frac{1}{2n}\right) - \left(\frac{1}{2} + \frac{1}{2n}\right) = \hat{r}_s^W - \frac{1}{2} \   (s = 1, \cdots, r) \] が成り立ちます.同様にして,列変数 \(Z\) に関して \[ v_t^* - \bar{S^*} = \left(\hat{r}_t^Z + \frac{1}{2n}\right) - \left(\frac{1}{2} + \frac{1}{2n}\right) = \hat{r}_t^Z - \frac{1}{2} \   (t = 1, \cdots, c) \] が成り立ちます.ここに, \[ v_t^* = \frac{v_t}{n} = \hat{r}_t^Z + \frac{1}{2n}, \] \[ \hat{r}_t^Z = (\hat{p}_{+1} + \cdots + \hat{p}_{+,t-1}) + \frac{\hat{p}_{+t}}{2}, \ \ \ \hat{p}_{+m} = \frac{n_{+m}}{n} \] である.

(7)

 以上より,分割表における スピアマンの(標本)順位相関係数 \(r_s\) は次のように表されます:

\[ \begin{eqnarray*} r_s &=& \frac{\sum_{i=1}^{n}(R_i^* - \bar{R}^*)(S_i^* - \bar{S}^*)}{\sqrt{\sum_{i=1}^{n}(R_i^* - \bar{R}^*)^2}\sqrt{\sum_{i=1}^{n}(S_i^* - \bar{S}^*)^2}} \\ &=& \frac{\sum_{s=1}^{r}\sum_{t=1}^{c}(\hat{r}_s^W - 0.5)(\hat{r}_t^Z - 0.5)\hat{p}_{st}}{\sqrt{\sum_{s=1}^{r}(\hat{r}_s^W - 0.5)^2\hat{p}_{s+}}\sqrt{\sum_{t=1}^{c}(\hat{r}_t^Z - 0.5)^2 \hat{p}_{+t}}} \end{eqnarray*} \]

(8)


 今,連続確率変数 \(X\) と \(Y\) に対するスピアマンの(母)順位相関係数 \(\rho_s\) が,分割表において,つまり,離散確率変数 \(W\) と \(Z\) の(母)順位相関係数がどのようになるのかを考えたいと思います.そこで,以下は,母集団版で考えます.

行変数 \(W\) の(母)リジットは \[ r_s^W = (p_{1+} + \cdots + p_{s-1,+}) + \frac{p_{s+}}{2} \  (s = 1, \cdots, r) \] で定義され,列変数 \(Z\)の(母)リジットは \[ r_t^Z = (p_{+1} + \cdots + p_{+,t-1}) + \frac{p_{+t}}{2} \  (t = 1, \cdots, c) \] で定義されます.

 したがって,分割表におけるスピアマンの(母)順位相関係数 \(\rho_s\) は \[ \rho_s = \frac{\sum_{s=1}^{r}\sum_{t=1}^{c}(r_s^W - 0.5)(r_t^Z - 0.5)p_{st}}{\sqrt{\sum_{s=1}^{r}(r_s^W - 0.5)^2 p_{s+}}\sqrt{\sum_{t=1}^{c}(r_t^Z - 0.5)^2 p_{+t}}}  \cdots (1) \] のように表されます(参考文献 [5] [6] を参照).

 なお,行変数 \(W\) のリジット \(\{r_s^W\}\) と列変数 \(Z\) のリジット \(\{r_t^Z\}\) の各母平均は \[ \sum_{s=1}^{r}r_s^W p_{s+} = \sum_{t=1}^{c}r_t^Z p_{+t} = 0.5 \] に成ります(証明は略します).すなわち,分割表における式 (1) のスピアマンの順位相関係数は,行変数 \(W\) のリジット \(\{r_s^W\}\) と列変数 \(Z\) のリジット \(\{r_t^Z\}\) との(母)相関係数を表しています.

 なお,この(母)リジットは,離散型の周辺分布関数を用いて \[ r_s^W = F_{s-1}^W + \frac{1}{2}(F_s^W - F_{s-1}^W) = \frac{1}{2}(F_{s-1}^W + F_s^W) \  (s = 1, \cdots, r), \] \[ r_t^Z = G_{t-1}^Z + \frac{1}{2}(G_t^Z - G_{t-1}^Z) = \frac{1}{2}(G_{t-1}^Z + G_t^Z) \  (t = 1, \cdots, c) \] のようにも表されます.

(9)

 また,母集団(たとえば,20歳の男性全体(おそらく約60万人くらい))から,任意のひとりを選んだとき,たとえば,身長を \(r\) 個のカテゴリに分け,体重を \(c\) 個のカテゴリに分けて,\(r \times c\) 分割表を考えてみます.離散型の行変数 \(W\) と列変数 \(Z\) を用いて,今,互いに独立な任意の3人(ここでは,Aさん,Bさん,Cさんと呼ぶことにして)を選んで,たとえば,(身長,体重)が属するカテゴリを,Aさんは \((W_a, Z_a)\), Bさんは \((W_b, Z_b)\), Cさんは \((W_c, Z_c)\) とします.

 ここで,(Aさんの身長,Aさんの体重)の属するカテゴリ \((W_a, Z_a)\) と (Bさんの身長,Cさんの体重)の属するカテゴリ \((W_b, Z_c)\) のペアに対して,一致(concordance) の確率 と 不一致(discordance) の確率の差は,式 (1) の離散型のスピアマンの(母)順位相関係数の分子,つまり,リジット \(\{r_s^W\}\) と リジット \(\{r_t^Z\}\) の母共分散の4倍と一致します(証明は略します).上記の質問 Q9 で述べた連続型の場合と同様な結果となっています.


(参考文献)

[1] Nelsen, R. B.(2006): 「An Intoroduction to Copulas」, Springer
[2] Balakrishnan, N. and Chin-Diew L. (2009): 「Continuous Bivariate Distributions」, Springer
[3] 北川源四郎・竹村彰通 編 (2008年): 数理・計算の統計科学「接合分布関数(コピュラ)の理論と応用(塚原英敦 著)」,東京大学出版
[4] 清水邦夫 著 (2020年): 「相関係数」,近代科学社
[5] Agresti, A. (1984):  「Analysis of Ordinal Categorical Data」, Wiley
[6] 丹後俊郎・小西貞則 (2010年): 医学統計学の事典「分割表での関連性の尺度」, 朝倉書店


(補足)

(1) 質問 Q1 「標本平均の平均は,なぜ母平均に一致するのか?」については  こちら からご覧下さい.

(2) 質問 Q2 「最尤推定量の意味は何か(定義や求め方でなく)?」については  こちら 

(3) 質問 Q4 「母分散の意味は何か?」については  こちら 

(4) 質問 Q5 「仮説検定とは何か?」については  こちら 

(5) 質問 Q6 「区間推定(信頼区間)とは何か?」については  こちら 

(6) 質問 Q7 「回帰モデルにおける偏回帰係数とは何か?」については  こちら 

(7) 質問 Q0 「有意水準・仮説検定・平均と分散」の日常生活と結びつけた「説明」は こちらの  スライド

(8) 質問 Q11 「母共分散の意味は何か」については  こちら

(9) 質問 Q13 「クラメール連関係数の最大値とその導出」については  こちら

戻る