フィッシャー情報量 - デタくら

今回はフィッシャー情報量を主にまとめていこうと思います。それに伴い、スコア関数等にも触れていきます。今回は、パラメータが1つの場合のフィッシャー情報量についてまとめますので、フィッシャー情報行列については触れません。間違っている箇所がありましたらコメント等で指摘していただけると幸いです。

フィッシャー情報量とは
フィッシャー情報量の導出
一様最小分散不偏推定量
演習問題

フィッシャー情報量とは

フィッシャー情報量（Fisher information）とは確率変数$X$がパラメータ$\theta$に関して持つ情報量です。

このフィッシャー情報量を利用してできることとしては、不偏推定量が一様最小分散不偏推定量であるかどうかの判定などがあります。

フィッシャー情報量には以下のようなロードマップで辿り着くことができます。

ロードマップ

$$
\begin{array}{ll}
尤度関数: & L(\theta;X) = \prod^{n}_{i=1}f(X;\theta)\\
\downarrow \color{hotpink}{対数をとる}\\
対数尤度関数: & l(\theta;X) = \log{L(\theta;X)}\\
\downarrow \color{hotpink}{\thetaについて偏微分}\\
スコア関数: & s(\theta;X) = \frac{\partial}{\partial\theta}l(\theta;X)\\
\downarrow \color{hotpink}{分散}\\
フィッシャー情報量: &I_n = V\left[s(\theta;X)\right] = E\left[\left(\frac{\partial}{\partial\theta}l(\theta;X)\right)^2\right]
\end{array}
$$

フィッシャー情報量の導出

先に挙げたロードマップに従い、フィッシャー情報量を導出しようと思うのですが、まずは重要となるスコア関数の性質を示します。

スコア関数の性質

スコア関数の期待値は$0$

$$
\begin{align}
E[s(\theta;{X})] = 0
\end{align}
$$

証明はここをクリック↓

証明

条件

積分と微分の交換が可能

$$
\begin{align}
E[s(\theta;X)]
&= E\left[\frac{\partial}{\partial\theta}l(\theta;X)\right]\\
&= E\left[\frac{\partial}{\partial\theta}\log L(\theta;X)\right]\\
&= \int\!\!\int\cdots\int_{U} L(\theta;X)\frac{\partial}{\partial\theta}\log L(\theta;X) \:dX_1\cdots dX_n\\
&= \int\!\!\int\cdots\int_{U} L(\theta;X)\frac{\frac{\partial}{\partial\theta} L(\theta;X)}{L(\theta;X)} \:dX_1\cdots dX_n\\
&= \int\!\!\int\cdots\int_{U} \frac{\partial}{\partial\theta} L(\theta;X) \:dX_1\cdots dX_n\\ &= \int\!\!\int\cdots\int_{U} \frac{\partial}{\partial\theta}\prod^n_{X}f(X_i;\theta) \:dX_1\cdots dX_n\\
&=\frac{\partial}{\partial\theta} \int\!\!\int\cdots\int_{U} \prod^n_{X}f(X_i;\theta) \:dX_1\cdots dX_n\\
&= \frac{\partial}{\partial\theta}1\\
&= 0
\end{align}
$$

このスコア関数の性質を用いて、フィッシャー情報量を導出します。ロードマップで示した通りスコア関数の分散を求めると

【定義】フィッシャー情報量（スコア関数の分散）

$V[X]=E[X^2]-(E[X])^2$を利用すると、

$$
\begin{align}
I_n(\theta) &= V[s(\theta;{X})] \\
&= E[s(\theta;{X})^2]-(E[s(\theta;X)])^2\\
&= E[s(\theta;{X})^2]\\
&= E\left[\left(\frac{\partial}{\partial\theta}l(\theta;X)\right)^2\right]
\end{align}
$$

フィッシャー情報量はスコア関数の二乗の期待値となります。

フィッシャー情報量は別の式で表すこともできますので、そちらも紹介しようと思います。こちらの方が計算が楽になることがあります。

フィッシャー情報量（別の式）

$$
\begin{align}
I_n(\theta) &= -E\left[\frac{\partial^2}{\partial\theta^2}l(\theta;X)\right]
\end{align}
$$

証明はここをクリック↓

証明

対数尤度関数を2回微分する

$$
\begin{align}
\frac{\partial^2}{\partial\theta^2}l(\theta;X)
&=\frac{\partial^2}{\partial\theta^2}\log L(\theta;X)\\
&=\frac{\partial}{\partial\theta}\frac{\frac{\partial}{\partial\theta}L(\theta;X)}{L(\theta;X)}\\
&=-\frac{\frac{\partial}{\partial\theta}L(\theta;X)}{L(\theta;X)^2}\frac{\partial}{\partial\theta}L(\theta;X)+\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\\
&=-\left(\frac{\frac{\partial}{\partial\theta}L(\theta;X)}{L(\theta;X)}\right)^2
+\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\\
&=-\left(\frac{\partial}{\partial\theta}\log{L(\theta;X)}\right)^2
+\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\\
\end{align}
$$

ここで両辺の期待値をとると

$$
\begin{align}
E\left[\left(\frac{\partial}{\partial\theta}\log{L(\theta;X)}\right)^2
\right]&= -E\left[\frac{\partial^2}{\partial\theta^2}l(\theta;X)\right]+E\left[\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\right]\\
I_n(\theta)&=-E\left[\frac{\partial^2}{\partial\theta^2}l(\theta;X)\right]+E\left[\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\right]
\end{align}
$$

ポイント

積分と微分の交換が可能ならば

$$
\begin{align}
E\left[\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\right]
&=\int\!\cdots\!\int_{U}\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}L(\theta;X)dX_1\cdots{dX_n}\\
&=\int\!\cdots\!\int_{U}
{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}dX_1\cdots{dX_n}\\
&=\int\!\cdots\!\int_{U}{\frac{\partial^2}{\partial\theta^2}\prod^n_{X}f(X_i;\theta)}dX_1\cdots{dX_n}\\
&={\frac{\partial^2}{\partial\theta^2}\int\!\cdots\!\int_{U}\prod^n_{X}f(X_i;\theta)}dX_1\cdots{dX_n}\\
&=\frac{\partial^2}{\partial\theta^2}1\\
&=0
\end{align}
$$

このポイントを踏まえると

$$
\begin{align}
I_n(\theta)&=-E\left[\frac{\partial^2}{\partial\theta^2}l(\theta;X)\right]+E\left[\frac{\frac{\partial^2}{\partial\theta^2}L(\theta;X)}{L(\theta;X)}\right]\\
I_n(\theta)&=-E\left[\frac{\partial^2}{\partial\theta^2}l(\theta;X)\right]
\end{align}
$$

一様最小分散不偏推定量

不偏推定量 $\hat{\theta}=T(\theta)$の中でも平均二乗誤差$E_\theta[(\hat\theta-\theta)^2]$を最小化する不偏推定量を一様分散不偏推定量（Uniformly Minimum-Variance Unbiased Estimater）または有効推定量と言います。この一様分散不偏推定量かどうかをクラメール・ラオの限界（Cramér–Rao bound）を利用することで判定できます。

クラメール・ラオの限界

確率密度関数$f(x;\theta)$に従う確率変数列$X=(X_1,X_2,\cdots,X_n)$よりパラメータ$\theta$を推定することを考えます。このとき、任意の不偏推定量$T(X)$の分散の下限はフィッシャー情報量を$I_n$とすると、次の不等式より与えられます。

$$
\begin{align}
V_\theta[\hat{\theta}=T(X)] \ge I_n(\theta)^{-1}
\end{align}
$$

このクラメール・ラオの限界が示す不等式の等号が成り立つような不偏推定量を一様分散不偏推定量または有効推定量といいます。

演習問題

ベルヌーイ分布のパラメータ（成功確率$p$）の不偏推定量の下限を求める

成功確率$p$のベルヌーイ分布の確率密度関数は

$$
\begin{align}
f(x;p) = p^x(1-p)^{1-x}
\end{align}
$$

です。そしてベルヌーイ分布に独立同一に従う確率変数列を $X=(X_1,X_2,\cdots,X_n)$とすると対数尤度関数は

$$
\begin{align}
l(p;X) &= \log{p^{\sum_{i=1}^{n}X_i}(1-p)^{n-\sum_{i=1}^{n}X_i}}\\
&= \sum_{i=1}^{n}X_i\log{p} + \left(n-\sum_{i=1}^{n}X_i\right)\log(1-p)\\
\end{align}
$$

そして対数尤度関数を2階微分して

$$
\begin{align}
\frac{\partial^2}{\partial{p^2}}l(p;X)
&=\sum_{i=1}^{n}X_i\frac{\partial^2}{\partial{p^2}}\log{p} +
\left(n-\sum_{i=1}^{n}X_i\right)\frac{\partial^2}{\partial{p^2}}\log(1-p)\\
&=\sum_{i=1}^{n}X_i\frac{\partial}{\partial{p}}\frac{1}{p} –
\left(n-\sum_{i=1}^{n}X_i\right)\frac{\partial}{\partial{p}}\frac{1}{1-p}\\
&=-\sum_{i=1}^{n}X_i\frac{1}{p^2} – \left(n-\sum_{i=1}^{n}X_i\right)\frac{1}{(1-p)^2}\\
&=-\frac{\sum_{i=1}^{n}X_i}{p^2} – \frac{n-\sum_{i=1}^{n}X_i}{(1-p)^2}\\
\end{align}
$$

従って、フィッシャー情報量は対数尤度関数の2階微分の期待値をとってマイナスをかければ

$$
\begin{align}
I_n(p) &=-E\left[-\frac{\sum_{i=1}^{n}X_i}{p^2} – \frac{n-\sum_{i=1}^{n}X_i}{(1-p)^2}\right]\\
&=\frac{np}{p^2} + \frac{n-np}{(1-p)^2}\\
&=\frac{np}{p^2} + \frac{n(1-p)}{(1-p)^2}\\
&=\frac{n}{p} + \frac{n}{1-p}\\
&=\frac{n}{p(1-p)}\\
\end{align}
$$

よって、$n$個の標本からベルヌーイ分布の成功確率の不偏推定量$T(X)$を考えた時、その不偏推定量の分散の下限は

$$
\begin{align}
V[T(X)] \ge \frac{1}{I_n(p)}=\frac{p(1-p)}{n}
\end{align}
$$

となります。このことから成功確率$p$の不偏推定量を$T(X)=\frac{\sum^n_{i=1}X_{i=1}}{n}$としたとき、その分散は

$$
\begin{align}
V[T(X)]
&= V\left[\frac{\sum^n_{i=1}X_{i}}{n}\right]\\
&= V\left[\frac{X_{1}}{n}\right]+ \cdots + V\left[\frac{X_{n}}{n}\right]\\
&= \frac{p(1-p)}{n^2}+ \cdots + \frac{p(1-p)}{n^2}\\
&= n\frac{p(1-p)}{n^2}\\
&=\frac{p(1-p)}{n}
\end{align}
$$

となるので、ベルヌーイ分布の不偏推定量$T(X)=\frac{\sum^n_{i=1}X_{i=1}}{n}$は一様最小分散不偏推定量および有効推定量だということがわかりました。

今回はここまでとしたいと思います。今後、パラメータが複数ある場合のフィッシャー情報量についても書こうと思います。パラメータが1つの場合とあまり変わりませんが。