誤差と残差の違い

誤差（error）とは、観測された値と真の値との差。（しかし、真の値は基本的にはわからない）

残差（residual）とは、観測された値と予測値との差。（予測値は、回帰モデルなどで推定を行うことで分かる）

統計的手法の前提として、正規性や独立性などが挙げられるとき、本来であればそれは誤差に対して適用される。しかし、実際には誤差はわからないので、代わりに残差を用いて判断することになる。

Rで残差を確認する方法

Rで残差を確認する関数には、resid() がある。（）内には、回帰モデルのオブジェクトを入れる。

resid(model1)

回帰分析と誤差の関係

単回帰式：Y＝α＋βX＋ε
Y=切片＋傾き＋誤差

重回帰式： Y＝α＋β₁X₁＋β₂X₂＋…＋βnXn＋ε
Y=切片＋傾き１＋傾き２…＋傾きｎ＋誤差

回帰分析（単回帰や重回帰）では、最小二乗法を用いることによって回帰直線を決定する。回帰直線において、切片（ｙ）は独立変数が０のときの従属変数の値を示し、反対に、切片（Ｘ）は従属変数が０のときの独立変数を値を示す。また、独立変数が１増加したときの従属変数の増加量は回帰係数（β）で示される。誤差は、これらでは説明のできないばらつきである。回帰分析において、誤差は正規分布していること（Normality）、期待値は０であること、それぞれが独立していること（Independence）、分散は均一であること（Homoscedasticity）などを仮定としている。

診断プロット

これらの残差に関する仮定を簡単に確認する方法として、診断プロットがある。

診断プロットは、plot()の（）内にモデルのオブジェクト名を入力すると確認できる。

par(mfrow=c(2,2))　#２×２で一覧表示させる
plot(model1)　#診断プロットを作成

回帰診断プロットでは、以下のようにグラフが表示される。

Residuals vs Fitted ：非線形性、分散不均一、外れ値を確認できる。
NormalQ-Q（正規Q-Qプロット）
Scale-Location
Residuals vs Leverage（＋Cook’s distance）、Constant Leverage: Residuals vs Factor level…　※モデルによって異なる

診断プロットの例２
From: lm function – RDocumentation サンプルコード

診断プロットの見方

Residuals vs Fitted

このグラフからは、線形性、分散の均一性、外れ値の有無などを確認できる。
線　形　性：残差が０の線の周りにばらけて分布している
分散の均一性：残差が０の線の周りに水平な帯状に並んでいる
外れ値の有無：残差の分布パターンから明らかに外れている点がないか

NormalQ-Q（正規Q-Qプロット）

残差が正規分布しているかを確認することができる。縦軸は正規分布を仮定した場合の期待値、横軸は正規分布の分位数。
残差が正規分布に従っている場合は、一直線状にプロットされる。

ちなみに、Q-Qの「Q」は、quantileの頭文字

Scale-Location

Residuals vs Leverage、Constant Leverage: Residuals vs Factor level

※これらは、あくまで主観的な確認方法であることに注意する。

メモ

分散不均一性を調べる方法として、残差の平方を被説明変数として回帰分析を行い、全ての説明変数の係数が０であるかを検定する方法がある。

参考

STAT 462. 4.2 – Residuals vs. Fits Plot. https://online.stat.psu.edu/stat462/node/117/. 2021/8/1アクセス.
重回帰分析.https://www.statistics.co.jp/reference/software_R/statR_6_reg2.pdf, 2021/8/1アクセス.
回帰分析重回帰(3).http://fs1.law.keio.ac.jp/~aso/ecnm/pp/ecnmtrcs06.pdf. 2021/8/1アクセス.

Rで残差を確認する方法

回帰分析と誤差の関係

診断プロット

診断プロットの見方

返信を残す返信をキャンセル