最尤法って何?-分かりやすく解説-

統計的推定

[mathjax]

最尤法とは

最尤法(さいゆうほう)とは何か?まずは漢字の意味から考えてみよう。おそらく、2番目の漢字があまり日常で出てくる漢字ではないと思います。これは「尤も(もっとも)」という漢字で次のような意味があります。

[名・形動]道理にかなっていること。なるほどその通りだと思われること。また、そのさま。当然。「―な言い分」「いやがるのも―なことだ」

https://dictionary.goo.ne.jp/word/%E5%B0%A4%E3%82%82/

これを踏まえると、最尤とは「最も尤もらしい」という意味。言い換えると、「最も道理にかなっている」という意味です。つまり、最尤法は最も道理にかなっているパラメータを推定する方法なのです。この最尤法によって推定されたパラメータを最尤推定量と言います。

尤もらしさは何で判断するの?

最尤法は尤もらしいパラメータを推定することは分かったけど、その尤もらしさって何で判断するのでしょうか。ここで重要になるのが確率という考え方です。ある分布の確率質量関数または確率密度関数を用いて算出する尤もらしさを尤度といいます。そして、尤度を求める関数を尤度関数といい、この尤度関数を最大にするパラメータを求めるのが最尤法の目的です。

尤度関数の定義

$$
L(\theta) = \prod^{k}_{i=1}P(X_i;\theta)
$$

解説をする前に、表記の意味を確認しておきます。\(P(x;\theta)\)の「\(;\)(セミコロン)」の意味は左側が変数で右側が条件、今回はパラメータです。つまり、\(P(x;\theta)\)はパラメータ\(\theta\)における確率関数という意味です。

それでは、解説に入ります。式の通りですが、尤度関数というのは、確率変数\(X_i\)が起こる確率を\(i = 1,\cdots,k\)まで掛けたもので、確率変数列\(X_1,X_2,\cdots,X_k\)が得られる確率と解釈することができます。その確率変数列が得られる確率を最大化するようなパラメータを確率変数列から推測するのです。

二項分布の最尤推定量を求めてみよう

確率変数列\(X_1,\cdots,X_k\)が独立同一に試行回数\(n\)、成功確率\(p\)の二項分布に従うとします。このとき、成功確率\(p\)の最尤推定量を求めていきましょう。

確率質量関数\(P(X)\)は次のように表されます。

$$
P(X_i) = {_nC_{X_i}}p^{X_i}(1-p)^{n-X_i}
$$

従って、尤度関数\(L(p)\)は次のようになります。
$$
\begin{align}
L(p) &= \prod_{i=1}^{k}{P(X_i)}\\
&= \prod_{i=1}^{k}{_nC_{X_i}}p^{X_i}(1-p)^{n-X_i}\\
&= \prod_{i=1}^{k}{_nC_{X_i}}p^{\sum^{k}_{i=1}X_i}(1-p)^{n^2-\sum^{k}_{i=1}X_i}\\
&\propto p^{\sum^{k}_{i=1}X_i}(1-p)^{n^2-\sum^{k}_{i=1}X_i}\\
\end{align}
$$

4行目の「\(\propto\)」という記号は比例を表す記号です。尤度関数は\(p\)に依存する関数ですので、\(p\)を含まない部分は気にする必要がないため上記のような表記にしました。このまま微分をして最大化するパラメータを求めることもできますが、見づらい上に面倒くさいので少し工夫します。ずばり、対数を取ります。また、尤度関数の対数をとったものを対数尤度関数と言います。尤度関数を最大化することと対数尤度関数を最大化することは同値ですので、基本的には対数尤度関数を用いて最大化するパラメータを求めます。それでは計算してみましょう。

対数尤度を\(l(p)\)とすると


$$
\begin{align}
l(p) &= \log{L(p)}\\
&= {\sum^{k}_{i=1}X_i}\log{p} + \left(n^2-{\sum^{k}_{i=1}X_i}\right)\log{(1-p)}
\end{align}
$$

最大化問題を解くときに重要な微分をします。\(l(p)\)を\(p\)について微分すると

$$
\begin{align}
\frac{dl(p)}{dp} = \frac{{\sum^{k}_{i=1}X_i}}{p} – \frac{n^2-{\sum^{k}_{i=1}X_i}}{1-p}
\end{align}
$$

対数尤度関数は上に凸のグラフを描くので、\(\frac{dl(p)}{dp}=0\)となるような\(p\)が最尤推定量となる。ここで、標本平均を\(\bar{X}=\frac{1}{n}\sum^{k}_{i=1}X_i\)とします。これらを踏まえると成功確率\(p\)の最尤推定量は

$$
\begin{align}
\frac{{\sum^{k}_{i=1}X_i}}{p} – \frac{n^2-{\sum^{k}_{i=1}X_i}}{1-p} &= 0\\
\frac{n\bar{X}}{p} – \frac{n^2-n\bar{X}}{1-p} &= 0\\
\frac{n\bar{X}(1-p)-(n^2-n\bar{X})p}{p(1-p)} &= 0\\
\frac{n\bar{X}-n^2p}{p(1-p)} &= 0\\
\frac{n(\bar{X}-np)}{p(1-p)} &= 0\\
p &= \frac{\bar{X}}{n}
\end{align}
$$

となります。これは、成功確率\(p\)の最尤推定量は標本平均をサンプルサイズで割ったものであるということです。それでは今回は以上です!

コメント

タイトルとURLをコピーしました