Search

레버리지와 아웃라이어

레버리지와 아웃라이어(데이터사이언스스쿨)

→ 각 데이터 표본이 회귀분석 결과에 미치는 영향력 분석 : (레버리지 & 아웃라이어) 분석

1. 레버리지

1.1 레버리지 정의

레버리지 → 실제 종속변수값 yy가 예측치(predicted target) y^\hat{y}에 미치는 영향을 나타낸 값임.
영향을 미침. → 영향도 행렬(H)(H)의 대각 행렬
영향도 행렬?
종속 변수 값 yyy^\hat{y}에 미치는 영향(H)(H)
y^=Hy\hat{y} = Hy
(y^1y^2y^N)=(h11,h12,,h1Nh21,h22,,h2NhN1,hN2,,hNN)(y1y2yN)\begin{pmatrix} \hat{y}_1\\ \hat{y}_2\\ \cdot\\ \cdot\\ \cdot\\ \hat{y}_N \end{pmatrix} = \begin{pmatrix} h_{11}, h_{12}, \cdot\cdot\cdot,h_{1N}\\ h_{21}, h_{22}, \cdot\cdot\cdot, h_{2N}\\ \cdot\\ \cdot\\ \cdot\\ h_{N1}, h_{N2}, \cdot\cdot\cdot,h_{NN} \end{pmatrix} \begin{pmatrix} y_{1}\\ y_{2}\\ \cdot\\ \cdot\\ \cdot\\ y_{N} \end{pmatrix}
y^i=hi1y1+hi2y2++hiiyi++hiNyN\hat{y}_i = h_{i1}y_1 + h_{i2}y_{2} + \cdot\cdot\cdot + h_{ii}y_{i} + \cdot\cdot\cdot + h_{iN}y_{N}
hii=1,hij=0(forij),y^=yh_{ii} = 1, h_{ij} = 0 \quad (for \quad i \neq j), \quad \hat{y} = y
hiih_{ii} 값이 1이 되고 나머지 성분들이 모두 0이 된다면, 실제 결과 값과 예측 값이 일치하게 된다.
→ 따라서, 레버리지는 수학적으로 영향도 행렬의 대각 성분 hiih_{ii}로 정의된다.
다만, 위의 가정은 불가능하다.

2. 아웃라이어

2.1 아웃라이어 정의

아웃라이어 분석 → 모형에서 설명하고 있는 데이터와 동떨어진 값을 가지는 데이터 / 잔차가 큰 데이터
잔차의 크기는 독립 변수의 영향을 받으므로 표준화된 잔차를 계산해야 함.
표준화 잔차
개별적인 잔차의 표준편차 구하기(명시적인 편리함을 위해 분산으로 표현함.)
→ 표준편차 = 분산\sqrt{분산}
→ 개별적인 잔차의 분산 → 공분산(Covariance) 계산
e=(IH)ϵ=Mϵe = (I - H)\epsilon = M\epsilon
Cov[e]=E[MϵϵTMT]=ME[ϵϵT]MT=Mσ2IMT=σ2MMT=σ2MM=σ2M=σ2(IH)\begin{align} Cov[e] & = E[M\epsilon\epsilon^{T}M^{T}]\\ & = ME[\epsilon\epsilon^{T}]M^{T}\\ & = M\sigma^{2}IM^{T}\\ & = \sigma^{2}MM^{T}\\ & = \sigma^{2}MM\\ & = \sigma^{2}M\\ & = \sigma^{2}(I-H) \end{align}
HH가 대칭 행렬이므로, MM은 대칭 행렬이다. 따라서, M2=MM^{2} = M이다.
대각 성분을 대상으로 계산하는 잔차의 표준편차는 다음과 같음.
Var[ei]=σ2(1hii)Var[e_i] = \sigma^{2}(1-h_{ii})
→ 오차의 표준 편차는 모든 표본에 대해 같으나(회귀 분석에서는 모든 표본에 대한 오차의 분산이 동일하다고 가정함. Var[ϵi]=σ2Var[\epsilon_i] =\sigma^{2})
개별적인 잔차의 표준편차는 레버리지에 따라 달라진 다는 것을 위의 식에서 알 수 있음.
오차의 분산을 알 수 없으므로, 잔차 분산으로부터 추정한다.
Var[ei]s2(1hii)Var[e_i] \approx s^{2}(1 - h_{ii})
ss는 다음과 같이 구한 오차의 표준편차 추정 값이다. (잔차를 레버리지와 잔차의 표준 편차로 나누어 동일한 표준 편차를 가지도록 스케일링 한 것 : 표준화 잔차)
s2=eTeNK=RSSNKs^2 = \frac{e^{T}e}{N-K} = \frac{RSS}{N-K}
s=eTeNK=RSSNKs = \sqrt{\frac{e^{T}e}{N-K}} = \sqrt{\frac{RSS}{N-K}}
표준화 잔차 : rir_i
ri=eiStd[ei]=eis1hiir_i = \frac{e_i}{Std[e_i]} = \frac{e_i}{s\sqrt{1-h_{ii}}}

3. 코드 구현 해보기

데이터 세트 : 데이콘, 데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로(https://dacon.io/competitions/official/236381/data)
train.csv
1778.5KB
레버리지와 아웃라이어_예시.html
910.3KB

3. 참고 자료

3.
Projection matrix : link iconWikipediaProjection matrix