Search

Feature Scaling (특징 스케일링)

@Hyun Ahn, @7/5/2022
: 특징들의 서로 다른 값 범위(스케일)들을 동일한 또는 비슷한 범위로 변환하는 작업
스케일링 이전: 스케일이 큰 특징은 모델에 의해 과대 평가되고, 스케일이 작은 특징은 과소 평가됨
스케일링 이후: 모든 특징들의 스케일이 유사 → 모델 학습 과정의 수렴 속도 \uparrow, 과적합 방지

스케일링 유형

1.
정규화 (Normalization): 모든 특징들을 0~1 사이의 값으로 스케일링
대표적 방법: Min-Max Normalization
2.
표준화 (Standardization): 표준편차를 기반으로 스케일링
대표적 방법: Z-Score Normalization

Min-Max Normalization (최소-최대 정규화)

xnorm=xxminxmaxxminx_{norm}=\frac{x-x_{min}}{x_{max}-x_{min}}
특징 분포에는 변화가 없으므로, 이상치에 영향을 많이 받음
정규화 전에 이상치 처리를 먼저 수행할 필요가 있음

Z-Score Normalization (Z-점수 정규화)

데이터가 정규분포를 따른다고 가정하고, 분포를 0을 중심으로 하고 표준편차가 1이 되도록 스케일링
z=xμσz=\frac{x-\mu}{\sigma}
특징마다 표준편차가 다를 경우, 스케일링 결과가 특징 별로 다를 수 있음
이상치에 영향을 덜 받음

그 외의 스케일링 기법

Max Abs Scaler
Robust Scaler
Quantile Transformer Scaler
Power Transformer Scaler
Unit Vector Scaler

수정 계획