레버리지와 아웃라이어(데이터사이언스스쿨)
→ 각 데이터 표본이 회귀분석 결과에 미치는 영향력 분석 : (레버리지 & 아웃라이어) 분석
1. 레버리지
1.1 레버리지 정의
레버리지 → 실제 종속변수값 가 예측치(predicted target) 에 미치는 영향을 나타낸 값임.
영향도 행렬?
→ 따라서, 레버리지는 수학적으로 영향도 행렬의 대각 성분 로 정의된다.
다만, 위의 가정은 불가능하다.
2. 아웃라이어
2.1 아웃라이어 정의
표준화 잔차
→ 표준편차 =
→ 오차의 표준 편차는 모든 표본에 대해 같으나(회귀 분석에서는 모든 표본에 대한 오차의 분산이 동일하다고 가정함. )
개별적인 잔차의 표준편차는 레버리지에 따라 달라진 다는 것을 위의 식에서 알 수 있음.
3. 코드 구현 해보기
3. 참고 자료
1.
5.2 회귀분석의 기하학 : 5.2 회귀분석의 기하학 — 데이터 사이언스 스쿨
3.
Projection matrix :
WikipediaProjection matrix

4.
PCA를 통한 Eigenface recognizer :
Woozu Engineering techlogPCA(고유 성분 분석)를 통한 Eigenface recognizer