母分散が未知の標本平均が従う分布 〜分かりやすく解説〜

確率分布

今回は母分散が未知の標本平均が従う分布についてまとめてみようと思います。そのために\(t\)分布から復習していきましょう。

\(t\)分布とは

\(t\)分布の定義

\(Z\)は標準正規分布\(N(0,1)\)に従い、\(Y\)が自由度\(n\)のカイ二乗分布\(\chi^2(n)\)に従い、\(X\)と\(Y\)が互いに独立な時、次のような\(T\)が従う確率分布を自由度\(n\)の\(t\)分布といいます。また、自由度\(n\)の\(t\)分布を\(t(n)\)と表記します。

$$
T = \frac{Z}{\sqrt{\frac{Y}{n}}}\quad\sim\quad{t(n)}
$$

※\(t\)分布の厳密な確率密度関数は記載しません。

\(t\)分布は上記のように定義されます。では、どのような時に\(t\)分布の定義のような状況になるでそしょうか。ずばり、母分散が未知の時の標本平均が従う分布です。(※他にもありますが今回のテーマはこれ)

標本平均が従う分布

それでは、母分散が未知の時の標本平均が従う分布が\(t\)分布であるということを確かめていきましょう。

あるサンプルサイズ\(n\)の標本から得られた標本平均を\(\bar{X}\)とし、母平均を\(\mu\)、母分散を\(\sigma^2\)(未知)とします。このとき中心極限定理より、\(\bar{X}\)は\(N(\mu, \frac{\sigma^2}{n})\)に従います。つまり、標本平均\(\bar{X}\sim{N}(\mu, \frac{\sigma^2}{n})\)を標準化したものを\(Z\)とすると、\(Z\)は標準正規分布\(N(0,1)\)に従います。

$$
\begin{align}
Z = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}}\quad\sim\quad N(0,1)
\end{align}
$$

しかし、母分散\(\sigma^2\)は未知という仮定のもとで標本平均が従う分布を求めなくてはいけないため、母分散\(\sigma^2\)を含む上式は計算することができません。そこで、母分散\(\sigma^2\)の代わりに不偏分散\(s^2\)を用いて標本平均が従う分布を求められるようにならないかと考えます。つまり次のような確率変数が従う分布を求めるということです。

$$
\frac{\bar{X}-\mu}{\sqrt{\frac{s^2}{n}}}
$$

これは、不偏分散\(s^2\)を利用しているため、標準正規分布に従うとは言えません。そこで、次のような変形をします。

$$
\begin{align}
\frac{\bar{X}-\mu}{\sqrt{\frac{s^2}{n}}}
& = \frac{\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{s^2/\sigma^2}} \\
& = \frac{\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{\frac{(n-1)s^2/\sigma^2}{n-1}}}\tag{1}
\end{align}
$$

ここで、一つポイントを押さえておきましょう。

ポイント

$$
\frac{(n-1)s^2}{\sigma^2} = \left(\frac{X_1-\bar{X}}{\sigma^2}\right)\left(\frac{X_2-\bar{X}}{\sigma^2}\right)\cdots\left(\frac{X_n -\bar{X}}{\sigma^2}\right)\sim \chi^2(n-1)
$$

自由度が\(n-1\)となるのは、標本平均を用いるため自由度がマイナス1されるからです。

このポイントを押さえた上で分母の一部に着目すると、

$$
Y = \frac{s^2(n-1)}{\sigma^2} \sim \chi^2(n-1)
$$

であることがわかります。従って、式\((1)\)を次のように表すことができます。

$$
\frac{Z}{\sqrt{\frac{Y}{n-1}}}
$$

これは冒頭で定義した\(t\)分布の形であり、自由度\(n-1\)の\(t\)分布に従うことがわかります。つまり以下のようなことが言えます。

$$
\begin{align}
\frac{Z}{\sqrt{\frac{Y}{n-1}}}\sim{t(n-1)}&\Longleftrightarrow
\frac{\frac{\bar{X}-\mu}{\sqrt{\sigma^2/n}}}{\sqrt{\frac{(n-1)s^2/\sigma^2}{n-1}}}\sim{t(n-1)}\\
&\Longleftrightarrow \frac{\bar{X}-\mu}{\sqrt{\frac{s^2}{n}}}\sim t({n-1})
\end{align}
$$

このことから、標本平均の標準化において母分散ではなく不偏分散を用いた場合は自由度\(n-1\)の\(t\)分布に従うということがわかります。このとき、標本平均の分布の期待値は\(\mu\)であり、標準誤差は\(\sqrt{\frac{s^2}{n}}\)です。

まとめ

これで、母分散が未知のときに標本平均は\(t\)分布に従うと考えられるということが、なんとなくではなく、しっかりと理解できたと思います。この\(t\)分布に従うという性質を利用して検定をすることもできますので、そのうちそれらについてもまとめたいと思います。今回は以上です。

コメント

タイトルとURLをコピーしました