クラスカル・ウォリス検定の中の、ラスカル

クラスカル・ウォリス検定の統計量って何を考えてこうなったの?#

$$ H=\frac{12}{N(N+1)}(n_A(\bar{R}_A-\tilde{N})^2+n_B(\bar{R}_B-\tilde{N})^2+n_C(\bar{R}_C-\tilde{N})^2) $$ 右の方は偏差の二乗をとって加重を掛けている感があるので分かるが、$ \frac{12}{N(N+1)} $ がよくわからない。特に12、君はどこから来たんだ。

統計量を順を追って求めてみる。#

順位集合{1,2,…,N}から非復元抽出されたデータ $ R_{ij} $ について、 $$ \begin{cases} E[R_{ij}]=\bar{R}=\frac{N+1}{2}\ \ (順位の期待値)\\ Var[R_{ij}]=\sigma^{2}=\frac{N^2-1}{12}\ \ (順位の分散)\\ Cov[R_{ij},R_{kl}]=-\frac{\sigma^2}{N-1}(i,j,k,lは互いに異なる制約下での共分散)\ \ \end{cases} $$ 12が分散のところで現れている。これを細かく見てみる。 $$ \sigma^2=\frac1N\sum_{i=1}^{N}(i-\bar{x})^2=\frac1N\sum_{i=1}^{N}i^2-\bar{x}^2 $$ となるのは分かる。ここで、 $$ \sum i^2=\frac{N(N+1)(2N+1)}{6}\Longleftrightarrow \frac{1}{N}\sum_{i=1}^{N}i^2=\frac{(N+1)(2N+1)}{6} $$ を上の式に代入してやると、 $$ \sigma^2=\frac{(N+1)(2N+1)}{6}-\Big{(}\frac{N+1}{2}\Big{)}^2=\frac{N^2-1}{12} $$ が成り立つ。

12の出身地は分かった。しかし、これだけでは何故N(N+1)がいるのかが分からないので、まだ追っていく。

次に共分散が何故$ Cov[R_{ij},R_{kl}]=-\frac{\sigma^2}{N-1} $なのかを考える。
振り返って考えてみると、これはランキングであり、そしてこの統計量においてタイは想定されていない。
つまり、すでに出たランクに後から出るランクは拘束されている。つまりこれらは独立ではない。
例えば、小さい値が出たならば、大きい値が出やすくなるし、大きい値が出たならば小さい値が出やすくなる。
よって負の共分散があるといえる。
また、分母のN-1は、合計が一定であることによる制約で、不偏分散についているやつと同じと考えてよい。

各群の平均順位$ \bar{R}_i $の分散の導出#

第i群(サイズ$ n_i $)の平均順位の分散を考える。
$$ Var[\bar{R}_i]=Var\Big{[}\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}R_{ij}\Big{]}=\frac{1}{n_i^{2}}\Big{[}\sum_{j=1}^{n_i}Var[R_{ij}]+\sum_{j\ne l}[R_{ij},R_{il}]\Big{]} $$ ここに上記の分散と共分散を代入すると、 $$ Var[\bar{R}_{i}]=\frac{1}{n^{2}_{i}}Cov\Big{[}n_{i}\sigma^{2}+n_{i}(n_{i}-1)(-\frac{\sigma^{2}}{N-1})\Big{]}=\frac{\sigma^2}{n_i}\Big{[}1-\frac{n_{i}-1}{N-1}\Big{]}=\frac{\sigma^2}{n_{i}}\cdot\frac{N-n_{i}}{N-1} $$
ここで有限母集団修正が現れる。

群間平方和$ SS_B $の期待値の導出#

群間平方和$ SS_B=\sum_{i=1}^{k}n_{i}(\bar{R}_{i}-\bar{R})^2 $の期待値をとる。 検定量はカイ二乗分布に従ってほしいので、自由度と期待値が等しくなるというカイ二乗分布の性質より、群間平方和の期待値はk-1になってほしいことに注意する。
また、$ E[(\bar{R_i}-\bar{R})^2]=Var[\bar{R}_i] $ でもあることに注意する。

$$ E[SS_B]=\sum_{i=1}^{k}n_{i}E[(\bar{R_{i}}-\bar{R})^2]=\sum_{i=1}^k n_i\Big{(}\frac{\sigma^2}{n_i}\cdot\frac{N-n_i}{N-1}\Big{)}=\frac{\sigma^2}{N-1}\sum_{i}^{k}(N-n_{i}) $$ ここで、$ \sum_{i=1}^{k}n_i=N $であることに注意すると、(グループごとのやつの合計ってこと)
$$ E[SS_{B}]=\frac{\sigma^2}{N-1}N(k-1) $$ が成り立つ。

$ \sigma^2 $への代入#

最後に順位の分散を$ E[SS_B] $に代入する。
$$ E[SS_B]=\frac{(N+1)(N-1)}{12}\cdot\frac{N(k-1)}{N-1} $$ となり、整理すると、 $$ E[SS_B]=\frac{N(N+1)}{12}(k-1) $$ となる。よって、クラスカル・ウォリス検定の統計量の必然性が示された。