今回は回帰分析という分析手法を簡単にまとめていきたいと思います。
回帰分析とは
回帰分析(regression analysis)は、目的変数\(Y\)と説明変数\(X\)の関係を定量的に表す回帰方程式(regression equation)というものを求める分析手法です。そして、新たに得たデータを回帰方程式(モデルという時もある)にあてはめることで予測も可能になります。
- 目的変数(従属変数、被説明変数、内生変数とも言われます)
説明される変数のこと - 説明変数(独立変数、外生変数とも言われます)
目的変数を説明する変数
回帰分析では目的変数と説明変数との間に関係があるかないかだけでなく、各説明変数がどのくらい影響しているかなども分析することができます。
線形回帰と非線形回帰
回帰を大きく二つに分類すると、線形回帰(linear regression)と非線形回帰(non-linear regression)があります。線形回帰とは、\(y=\beta_0+\beta_1x\)のように回帰方程式が線形関数であるものをいい、非線形回帰とは、\(y = \frac{\beta_1x}{\beta_2+x}\)のように回帰方程式が非線形関数であるものを言います。以降は線形回帰についてのみ話していきます。
回帰方程式
ここから線形回帰における回帰方程式について少し詳しく話していきます。そこで、妊娠期間と出生児体重のデータを回帰分析するという状況を考えます。一般に出生体重と妊娠期間の間には正の相関があることが知られていますが、今回は数値を具体的に出すわけではありませんのでそうした状況を想像するだけで大丈夫です。
\(i\)人目の出生体重を\(Y_i\)、妊娠期間を\(x_i\)、データのばらつきを\(\varepsilon_i\)としたとき、母集団において、回帰方程式は次のようになります。
Y_i = \beta_0+\beta_1x_i+\varepsilon_i
$$
- 母集団
標本の源泉となる集合全体
上式の回帰方程式を母回帰方程式といい、\(\beta_0, \beta_1\)を母集団回帰係数、\(\varepsilon_i\)を誤差項(もしくは撹乱項)と言います。有限母集団の場合は不可能ではありませんが、通常、有限母集団・無限母集団のどちらにおいても全てのデータを取ることは難しいです。そのため、母集団回帰係数を求めるのは難しいです。そこで、母集団回帰係数を推定するのが回帰分析なのです。
そして、次のような回帰方程式が推定されたとします。
\hat{Y}_i = \hat{\beta}_0+\hat{\beta}_1x_i
$$
このとき、この回帰方程式を標本回帰方程式(もしくは標本回帰直線)といい、\(\hat{\beta}_0,\hat{\beta}_1\)は標本回帰係数と言います。また、推定されたものには慣習として\(\hat{\beta}_0\)のようにハットをつけて表現します。
回帰係数の推定方法
回帰分析は母集団回帰係数を推定するのが目的だと話しましたが、その推定方法は二つあります。
- 最小二乗法
標本回帰方程式による推定値と実測値との差が最小になるような\(\beta_0,\beta_1\)を求める方法 - 最尤法
「目的変数は正規分布に従う」という仮定のもとで、尤度を最大とする\(\beta_0,\beta_1\)を確率を用いて求める方法
詳しい解説はしませんが、このような方法を用いて回帰係数の推定を行うことができます。この二つの方法の最大の違いは確率を用いるか用いないかというとこです。また、一般に最小二乗法と最尤法による回帰係数の推定の結果は一致します。
今回はここまでにしようと思います。そのうち標本回帰方程式の評価方法についても書いていこうと思います。
コメント