最小二乗推定値の導出#

dは説明変数の数、nはデータのサイズであるとする。 $ \hat{\beta}\in \arg\min\ ||Y-X\beta||^2 $を求めたいので、$ ||Y-X\beta||^2 $を微分する。
$$ f(\beta)=(Y-X\beta)^{\top}(Y-X\beta) $$ とおき、これを展開し、
$$ f(\beta)=Y^{\top}Y-\beta^{\top}X^{\top}Y+\beta^{\top}X^{\top}X\beta-Y^{\top}X\beta $$ となるが、ここで、 $ \beta^{\top}X^{\top}Y $ は、 $ (1\times d)(d\times n)(n\times 1) $ であるので、計算すると$ 1\times 1 $となり、
$ Y^{\top}X\beta $ は、$ (1\times n)(n\times d)(d\times 1) $ であるので、これまた計算すると$ 1\times 1 $ となる。
よって、$ \beta^{\top}X^{\top}Y=Y^{\top}X\beta $ といえる。
したがって、
$$ f(\beta)=Y^{\top}Y-2\beta^{\top}X^{\top}Y+\beta^{\top}X^{\top}X\beta $$
が得られる。これをいよいよ$ \beta $について微分すると、
$$ \frac{\partial}{\partial\beta}f(\beta)=-2X^{\top}Y+2X^{\top}X\beta=-2X^{\top}(X\beta-Y)\ \ (\because 2次形式の微分公式(後述)) $$

となる。次に $ \frac{\partial f}{\partial\beta}=0 $となる $ \beta $を求める。 $$ X^{\top}(X\beta-Y)=0\Longleftrightarrow X^{\top}X\beta-X^{\top}Y=0\Longleftrightarrow X^{\top}X\beta=X^{\top}Y $$ より、
$$ \beta=X^{-1}(X^{\top})^{-1}X^{\top}Y=(X^{\top}X)^{-1}X^{\top}Y $$ となり、これがOLS推定値の行列となる。

2次形式の微分公式#

$$ \begin{cases}\frac{\partial}{\partial\beta}(a^{\top}\beta)=a\\ \frac{\partial}{\partial\beta}(\beta^{\top}A\beta)=A\beta+A^{\top}\beta\\ \frac{\partial}{\partial\beta}(a^{\top}\beta^{\top})=a^{\top}\end{cases}$$

3つめの微分公式はどうしてこうなるのか？の考え方#

積の微分っぽく考える。
$ \beta^{\top}A\beta $ を、$ \beta^{\top}\times A\beta $ という風に見る。
すると、 $$ (\beta^{\top})’ A\beta+\beta^{\top}(A\beta)’=A\beta+A^{\top}\beta=(A+A^{\top})\beta $$ となる。

最後の項の謎#

第二項の微分はやはりかなり不自然。これは微分される係数($ \beta $など)が右側にいるときに発生する。これは、$ \frac{\partial f}{\partial\beta} $ の行列の形が$ \beta $と一致しなければならないことによると解釈する。
すると、
何も考えずに微分すると、$ \beta^{\top}(A\beta)’ $は$ \beta^{\top}A $つまり$ (1\times d)(d\times d) $よって$ 1\times d $となってしまい、$ \beta $の$ (d\times 1) $に一致しない。
そのため、$ A^{\top}\beta $と転置をとって逆にしてやる必要が出てくる。すると、$ (d\times 1) $となり、$ \beta $の形に一致する。

重回帰の個人的まとめその1

最小二乗推定値の導出#

2次形式の微分公式#

3つめの微分公式はどうしてこうなるのか？の考え方#

最後の項の謎#