オッズ比を用いるモチベーション#

2群間の比較を考える。
そのとき、喫煙の有無などでグループ分けをした人の追跡を行い、最終的に癌などの疾患に罹患したかどうかを調べるという方法を前向き研究というが、癌などの疾患はそれ自体が人口に対して発症率が低いため、標本サイズを大きくする必要がある。

そこで、喫煙の習慣が「過去にあったかなかったか」で分類を行うのが後ろ向き研究である。

そして重要なのが、後ろ向き研究と前向き研究のオッズ比は一致することである。
癌研究のように事象の確率が小さいときは、$ \theta /(1-\theta )\approx\theta $と近似することができ、
注目している事象が疾病などの有害事象であれば、オッズ比は相対リスクの推定値となる。

2群の生起確率の差$ \hat{\delta}=\hat{\theta_{1}}-\hat{\theta_{2}} $の分散は二項分布の性質より、
$ V[\hat{\delta}]=\theta_{1}(1-\theta_{1})/n_{1}+\theta_{2}(1-\theta_{2})/n_{2} $となり、その平方根は$ \hat{\delta} $の標準誤差となる。

オッズ比の推定量は $$ OR=\frac{\frac{x_{1}}{n_{1}-x_{1}}}{\frac{x_{2}}{n_{2}-x_2}} $$
標本サイズが十分大きければ、標本オッズ比の対数の推定誤差は $$ \sqrt{V[OR]}=\sqrt{\frac{1}{x_{1}}+\frac{1}{n_{1}-x_{1}}+\frac{1}{x_2}+\frac{1}{n_{2}-x_{2}}} $$ と近似される。

2群の仮説検定#

適合度カイ二乗検定#

適合度カイ二乗検定及び尤度比検定では、帰無仮説を$ \theta_{1}=\theta_{2} $としたとき、
まずそれぞれの仮説をもとにした「当てはめ値」を求める。

当てはめ値は、 $$ m_{ij}=\frac{i行の合計\times j列の合計 }{合計} $$ 標本オッズ比は上のやつと同じ。標本「対数」オッズ比$ \sqrt{V[\log OR]} $も上のやつと同様に求められる。

$$ \chi^{2}=\Sigma_{i}\Sigma_{j}\frac{(x_{ij}-m_{ij})^{2}}{m_{ij}} $$ こと$ 2\times 2 $分割表においては、 $$ \chi^{2}=\frac{(標本サイズの合計)(x_{11}x_{22}-x_{12}x_{21})^{2}}{各行の合計同士の掛け算\times 各列の合計同士の掛け算} $$ と求めることができる。帰無仮説が正しい時、$ \chi^{2} $は漸近的にに自由度1のカイ二乗分布に従う。

尤度比検定#

尤度比検定統計量$ \Lambda $は、尤度関数にそれぞれの仮説のもとでの母数の最尤推定量(難しいことを言っているが直観的な割合と結果は同じ)を代入したものの比をとることで得られる。
これは帰無仮説のもとで対数尤度比の2倍が漸近的にカイ二乗分布に従うことを利用して検定を行うものであり、
値$ G^{2}=2\log\Lambda $は逸脱度といわれる。自由度は$ \chi^{2} $の自由度に等しい。
実際に計算すると、 $$ G^{2}=2\log\Lambda=2\Sigma_{i}\Sigma_{j}x_{ij}\log\frac{x_{ij}}{m_{ij}} $$ というようにすれば求められる。

$ \chi^{2}とG^{2} $のお気持ち？#

どちらも「当てはめ値」、つまり期待値との差、割合で現実との離れ具合を評価しているという点に着目すると、案外その実像が見えてくる。

フィッシャーの正確検定#

上記の2検定では、いずれも帰無仮説のもとでの標本サイズをでかくした際の漸近分布に基づいた評価をしているが、これに基づかない検定手法として、フィッシャーの正確検定がある。

漸近分布論に基づかないので、単なる2群の比較のみでなく様々な$ 2\times 2$分割表に適用できる。

この検定の根幹となる確率分布は超幾何分布で、確率関数は $$ P(X_{11}=x_{11})=\frac{各行各列の和の階乗どうしの積}{標本サイズの階乗}\times\frac{1}{x_{11}!x_{12}!x_{21}!x_{22}!},(x_{11},x_{12},x_{21},x_{22}\ge0) $$ となる。

様々な$ 2\times2 $分割表#

独立性の仮説#

例えば、ある学部の学生n人に対して、「ラーメンが好きか嫌いか」、「数学が好きか嫌いか」を調査して、2水準で調査した時、これは先ほど挙げた喫煙の習慣の調査と違い、所与であるのは調査対象の人数nだけである。

そのため、分割表の4マスのうち3つが決まれば残り一つも自動で決まるので、母数の次元は3となる。
そしてここで興味があるのは、「ラーメンの好き嫌い」と「数学の好き嫌い」が独立であるかどうかなので、仮説の表現は $$ H_{0}:\theta_{ij}=\theta_{i.}\theta_{.j},(\forall i,j) $$ となり、確率関数は $$ P(X_{ij}=x_{ij},i,j=1,2)=\frac{n!}{x_{11}!x_{12}!x_{21}!x_{22}!}\theta_{11}^{x_{11}}\theta_{12}^{x_{12}}\theta_{21}^{x_{21}}\theta_{22}^{x_{22}} $$ という多項分布の形になる。

統計検定準一級実践ワークブック第28章メモ