誤差と残差の違い

誤差(error)とは、観測された値と真の値との差。(しかし、真の値は基本的にはわからない)

残差(residual)とは、観測された値と予測値との差。(予測値は、回帰モデルなどで推定を行うことで分かる)

統計的手法の前提として、正規性や独立性などが挙げられるとき、本来であればそれは誤差に対して適用される。しかし、実際には誤差はわからないので、代わりに残差を用いて判断することになる。

Rで残差を確認する方法

Rで残差を確認する関数には、resid() がある。()内には、回帰モデルのオブジェクトを入れる。

resid(model1)

回帰分析と誤差の関係

単回帰式:Y=α+βX+ε
Y=切片+傾き+誤差

重回帰式: Y=α+β₁X₁+β₂X₂+…+βnXn+ε
Y=切片+傾き1+傾き2…+傾きn+誤差

回帰分析(単回帰や重回帰)では、最小二乗法を用いることによって回帰直線を決定する。回帰直線において、切片(y)は独立変数が0のときの従属変数の値を示し、反対に、切片(X)は従属変数が0のときの独立変数を値を示す。また、独立変数が1増加したときの従属変数の増加量は回帰係数(β)で示される。誤差は、これらでは説明のできないばらつきである。回帰分析において、誤差は正規分布していること(Normality)、期待値は0であること、それぞれが独立していること(Independence)、分散は均一であること(Homoscedasticity)などを仮定としている。

診断プロット

これらの残差に関する仮定を簡単に確認する方法として、診断プロットがある。

診断プロットは、plot()の()内にモデルのオブジェクト名を入力すると確認できる。

par(mfrow=c(2,2)) #2×2で一覧表示させる
plot(model1) #診断プロットを作成

回帰診断プロットでは、以下のようにグラフが表示される。

  1. Residuals vs Fitted :非線形性、分散不均一、外れ値を確認できる。
  2. NormalQ-Q(正規Q-Qプロット)
  3. Scale-Location
  4. Residuals vs Leverage(+Cook’s distance)、Constant Leverage: Residuals vs Factor level… ※モデルによって異なる

診断プロットの例1
診断プロットの例2
From: lm function – RDocumentation サンプルコード

診断プロットの見方

  • Residuals vs Fitted
  • このグラフからは、線形性、分散の均一性、外れ値の有無などを確認できる。
    線   形   性:残差が0の線の周りにばらけて分布している
    分散の均一性:残差が0の線の周りに水平な帯状に並んでいる
    外れ値の有無:残差の分布パターンから明らかに外れている点がないか

  • NormalQ-Q(正規Q-Qプロット)
  • 残差が正規分布しているかを確認することができる。縦軸は正規分布を仮定した場合の期待値、横軸は正規分布の分位数。
    残差が正規分布に従っている場合は、一直線状にプロットされる。

    ちなみに、Q-Qの「Q」は、quantileの頭文字

  • Scale-Location
  • Residuals vs Leverage、Constant Leverage: Residuals vs Factor level
  • ※これらは、あくまで主観的な確認方法であることに注意する。


    メモ

    • 分散不均一性を調べる方法として、残差の平方を被説明変数として回帰分析を行い、全ての説明変数の係数が0であるかを検定する方法がある。

    参考

    コメントを残す

    メールアドレスが公開されることはありません。