@Hyun Ahn, @7/5/2022
: 특징들의 서로 다른 값 범위(스케일)들을 동일한 또는 비슷한 범위로 변환하는 작업
•
스케일링 이전: 스케일이 큰 특징은 모델에 의해 과대 평가되고, 스케일이 작은 특징은 과소 평가됨
•
스케일링 이후: 모든 특징들의 스케일이 유사 → 모델 학습 과정의 수렴 속도 , 과적합 방지
스케일링 유형
1.
정규화 (Normalization): 모든 특징들을 0~1 사이의 값으로 스케일링
•
대표적 방법: Min-Max Normalization
2.
표준화 (Standardization): 표준편차를 기반으로 스케일링
•
대표적 방법: Z-Score Normalization
Min-Max Normalization (최소-최대 정규화)
•
특징 분포에는 변화가 없으므로, 이상치에 영향을 많이 받음
•
정규화 전에 이상치 처리를 먼저 수행할 필요가 있음
Z-Score Normalization (Z-점수 정규화)
•
데이터가 정규분포를 따른다고 가정하고, 분포를 0을 중심으로 하고 표준편차가 1이 되도록 스케일링
•
특징마다 표준편차가 다를 경우, 스케일링 결과가 특징 별로 다를 수 있음
•
이상치에 영향을 덜 받음
그 외의 스케일링 기법
•
Max Abs Scaler
•
Robust Scaler
•
Quantile Transformer Scaler
•
Power Transformer Scaler
•
Unit Vector Scaler