@Hyun Ahn, 2022-06-15
: 회귀모델의 성능 평가 지표
R-squared( or Coefficient of Determination, 결정계수)
: 데이터 변동(variation)을 기준으로 모델의 적합도를 평가하는 지표
•
높은 값은 모델의 예측 결과와 관측 데이터 사이의 강한 연관 관계가 존재한다는 것을 의미하며, 반드시 모델이 정확하게 예측한다는 것을 의미하지는 않음
Type of Loss Function (손실 함수의 종류)
MAE (Mean Absolute Error, 평균절대오차)
: 예측 값과 관측 값 사이의 절대 오차의 평균
•
오차의 절대 값을 측정하므로, 직관적으로 해석이 가능 (예: 모델은 평균 1.3일 오차를 보임)
•
“절대오차” 라는 단순한 기준을 모든 데이터에 적용하므로, 이상치가 많은 데이터셋에는 부적합
◦
일반적으로 이상치는 큰 오차를 야기하므로, 이상치에 강건한 모델을 얻기 위해서는 큰 오차에 대해 강한 페널티를 부여하는 것이 필요함
•
값 범위가 서로 다른 데이터들로부터 생성한 여러 모델들을 비교할 수 없음
•
MAE가 0일 경우(관측 값과 예측 값이 정확하게 일치): 미분이 불가능
◦
머신러닝에서 모델의 오차가 0인 경우는 흔치 않음
MSE (Mean Squared Error, 평균제곱오차)
: 예측 값과 관측 값 사이의 제곱 오차의 평균
•
오차항이 1보다 작으면 더욱 작아짐(예: )
•
오차항이 1보다 커지면 더욱 커짐(예: )
•
절대 오차가 아니므로, MAE 와 달리 해석이 용이하지 않음
•
큰 오차(이상치)에 대해서 강한 페널티를 적용 → 이상치가 많은 데이터셋에 적합
RMSE (Root Mean Squared Error, 평균제곱근오차)
: MSE의 제곱근으로 표현한 오차
•
절대 오차에 제곱을 취하는 MSE 에 제곱근을 다시 취하기 때문에 스케일이 원본 데이터와 일치
NRMSE (Normalized Root Mean Squared Error)
: RMSE 의 정규화를 통해 계산되는 오차
•
최대값-최소값 기반
•
평균 기반
•
이외에도 분모를 표준편차 또는 사분위수 범위(interquartile range: 로 사용 가능
•
정규화된 오차: 서로 다른 조건을 가지는 모델들의 성능을 비교할 수 있음
MAPE (Mean Absolute Percentage Error, 평균절대비오차)
•
절대 오차에 관측 값을 나눔으로써 오차를 비율(%) 형태로 계산
•
오차 비율을 나타내므로, 해석이 용이함
•
관측 값이 0일 경우 Division by Zero 문제 발생 (계산 불가능) → 관측 값 중에서 0 이 존재할 경우 적용 불가능한 지표
•
관측 값이 0에 근접할수록 오차 값이 급격히 증가
WMAPE (Weighted Mean Absolute Percentage Error, 가중평균절대비오차)
: 절대오차의 총합을 관측 값의 총합으로 나눈 지표
•
MAPE 와 같이 오차 비율을 나타내므로, 해석이 용이한 동시에 Division by Zero 문제 방지
MPE
Huber Loss
References
•
Lendave, V., A Guide to Different Evaluation Metrics for Time Series Forecasting Models, analyticsindiamag (link)
•
•
•