打ち切り正規分布の分散について#

P281下部で、$ \Phi(\cdot) $を標準正規分布N(0,1)の累積分布関数、$ Z=\frac{X-\mu}{\sigma} $をN(0,1)従う確率変数、 $ a=\frac{c-\mu}{\sigma} $としたとき、 $$ V[Z|Z\le a]=1-\frac{a\phi(a)}{\Phi(a)}-\Big{(}\frac{\phi(a)}{\Phi(a)}\Big{)}^{2} $$ となると示されているが、$ E[Z^2|Z\le a]=1-\frac{a\phi(a)}{\Phi(a)} $ がしっくりこないので、導出する。

まず、 $$ E[Z^2|Z\le a]=\int_{-\infty}^{a}z^2\frac{\phi(z)}{\Phi(a)}dz=\frac{1}{\Phi(a)}\int_{-\infty}^{a}z^{2}\phi(z)dz $$ を求めれば良いことが分かる。次に下ごしらえをする。 $$ \frac{1}{\sqrt{2\pi}}\exp(-\frac{z^2}{2})’ =(-\frac{z^2}{2})’ \frac{1}{\sqrt{2\pi}}\exp(-\frac{z^2}{2})=-z\frac{1}{\sqrt{2\pi}}\exp(-\frac{z^2}{2}) $$ が成り立つので、つまるところ、 $$ \phi’ (z)=-z\phi(z) $$ が成り立つ。これを用いて上の式を変形すると、 $$ \int^{a}_{-\infty}z^{2}\phi(z)dz=\int_{-\infty}^{a}z(-\phi’ (z))dz $$ $$ =[-z\phi(z)]_{-\infty}^{a}+\int_{-\infty}^{a}\phi(z)= -a\phi(a)+\Phi(a)\ \ \because\ \phi(-\infty)=0 $$ が成り立つ。元の式にこれを戻すと、 $$ E[Z^2|Z\le a]=\frac{-a\phi(a)+\Phi(a)}{\Phi(a)}=1-\frac{a\phi(a)}{\Phi(a)} $$ となり、導出できた。
下にある一般の$ \mu,\sigma $のケースでは、変数変換$ X=\sigma z+\mu $を考えればよい。
$$ E[X|X\le c]=E[\sigma Z+\mu|Z\le a]=\sigma E[Z|Z\le a]+\mu=\mu-\frac{\phi(a)}{\Phi(a)}\sigma $$ とでき、導出できる。分散は普通の変数変換と同様に、$ \sigma^2 $ がくっついただけなので、省略する。

MAR,MNARの違いがよく分からない#

MARは、そのデータが扱う情報の中で「なぜ欠測しているのか?」が説明できるデータということ。 例えば、ドラゴンボールの登場人物の戦闘力をまとめたデータがあったとして、スカウターが破損、つまり欠損する条件が「めちゃくちゃ強い」「あんまり強くない」などのデータに記載してある別の条件によって分かれば、そのデータはMARであるといえる。

MNARは、そのデータが扱っている情報では「なぜ欠測しているか」を説明できないデータということ。
例えば意中の相手にメールを送っても帰ってこない、つまり返信が欠測しているのは、自分の顔がアカンせいかパッとせぇへんせいか、まったく見当がつかない。
これはMNARといえる。
一変数のみのとき、欠損値はMCARかMNARになるのはこのことによる。

反復計算を例1で実践してみる#

P282においては、1変量正規分布での反復計算が例題として出されているが、計算過程が記されていなかったので実際にやってみる。
まず、初期値が$ \mu^{(0)}=46.25 $ で、$ a^{(0)}=\frac{60-46.25}{10}=1.375 $ となり、
$$ \phi(1.375)=\frac{1}{\sqrt{2\pi}}e^{\Big{(}-\frac{(1.375)^2}{2}\Big{)}}=0.156 $$

となり、累積分布関数 $ \Phi(\cdot) $ の方は、$ \Phi(1.375)=0.9147 $ と表せる。よって、 $$ \mu^{(1)}=\frac{1}{10}\Big{(}370+(10-2)(46.25+\frac{0.156\times 10}{1-0.9147})\Big{)}=49.908 $$ これで一回目の繰り返しが終了する。
次に、$ a^{(1)}=\frac{60-49.908}{10}=1.0092\approx 1.01 $ であるので、 $ \phi(1.01)=\frac{1}{\sqrt{6.28}}\cdot\frac{1}{1.6653}=0.24 $ で、$ \Phi(1.01)=0.8483 $が成り立つ。よって、 $$ \mu^{(2)}=\frac{1}{10}\Big{(}370+2(49.908+\frac{0.24\times 10}{0.1562})=50.05 $$ となり、解答のものと一致するが、二回しか繰り返していない気がするのでかなり不安。

トランケーションがある場合は、むしろこれより単純化され、 $$ \mu^{t+1}=\bar{x}+\frac{\phi(a^{(t)})\times \sigma}{\Phi(a^{(t)})} $$ という計算を繰り返し行うことで近似できる。
そして、この式は前前項で行った欠損値データを除いた期待値計算の式変形バージョンであることに気づくと覚えやすい。(下) $$ E[X|X\le c]=\mu-\frac{\phi(a)\times\sigma}{\Phi(a)} \Longleftrightarrow\ \ \mu=E[X|X\le c]+\frac{\phi(a)\times \sigma}{\Phi(a)} $$