@Jihyun Choi @2022년 8월 5일
: 모델의 성능 향상을 위해 초매개변수(hyperparameters)를 조정해 매개변수를 Optimization(최적화)하는 방법
•
여러 Hyperparameter들을 적용하여 모델 학습하여 Tuning
•
Hyperparameter는 모델의 구조, 기능 및 성능을 직접 제어하기 때문에 모델의 성능을 높이기 위해서는 이를 적절히 조정해야 함
•
모델의 학습 속도를 Hyperparameter로 조정할 때, 값이 너무 크면 모델이 최선의 값에 도달하지 못하고 종료될 수 있으며, 너무 작으면 학습 시간이 오래 걸림
Parameter vs Hyperparameter
•
Parameter
◦
모델 내부에서 결정되는 파라미터
▪
예) 학생들의 키에 대한 정규 분포를 구할 때 모델에 의해 구해지는 평균, 표준편차
◦
학습 과정에서 데이터로부터 학습 또는 예측됨
•
Hyperparameter
◦
모델 외부에서 결정되는 파라미터
◦
모델이나 학습 알고리즘의 구조를 제어하거나 조정
◦
정해진 값 없이 모델 학습 전에 사용자가 결정함(경험적 방법 등)
▪
예) KNN에서의 K, 학습률, 배치 크기, 학습 횟수 등
⇒ 사용자의 개입 여부에 따라 parameter와 hyperparameter가 구분
⇒ 사용자가 개입되지 않으면 parameter, 사용자가 개입되면 hyperparameter
Hyperparameter Tuning 기법
Grid Search
탐색의 대상이 되는 특정 구간 내의 후보 hyperparameter 값들을 일정한 간격을 두고 선정하여, 각각의 성능 결과를 기록한 뒤, 가장 높은 성능의 hyperparameter 값을 선정하는 방법
•
모든 경우의 수에 대해 cross-validation(교차검증) 결과가 가장 좋은 parameter를 고르는 방법
장점 | 원하는 범위를 균등하고 전역적으로 탐색 |
단점 | • 한 번에 여러 종류의 hyperparameter 탐색할 경우, 전체 탐색 시간이 기하급수적으로 증가
• 선택한 후보가 최적의 값이 아닐 가능성 높음
→ Unimportant parameter와 Important Parameter를 동일하게 관측 해야 하기 때문에 Important Parameter를 다양하게 시도해볼 수 있는 기회가 감소될 수 있음 |
Random Search
탐색 대상 구간 내의 후보 hyperparameter 값들을 랜덤 샘플링(Random sampling)을 통해 선정하여, 가장 높은 성능의 hyperparameter 값을 채택하는 방법
장점 | • Grid Search에 비해 시간 적게 소요
→ random dampling하여 불필요한 반복 수행 횟수를 줄이면서 정해진 간격(grid) 사이 위치한 값들도 탐색하기 때문
• Grid search에서 선정되지 않은 hyperparameter도 탐색 가능 |
단점 | • Random하기 때문에 Grid Search보다 성능이 낮을 수 있음
• Hyperparameter의 범위가 너무 넓을 경우 일반화된 결과가 나오지 않음(할 때마다 달라짐)
• seed를 고정하지 않으면 할 때마다 결과가 달라짐
• hyperparameter 선정 과정에 이전 결과가 반영되어있지 않아 여전히 불필요한 탐색 과정 존재 |
Bayesian Optimization
목적 함수(탐색 대상 함수)와 Hyperparameter 쌍을 대상으로 Surrogate Model(대체 모델)을 만들어 Hyperparameter를 평가 및 업데이트 하면서 최적의 조합을 탐색하는 방법
•
사전 지식(prior)을 반영하여 Hyperparameter 탐색
•
Surrogate model(목적 함수 대체 모델)을 사용해 탐색 비용 절감
•
Acquisition function: Surrogate model이 추정한 결과를 바탕으로 다음 입력값 후보를 선정하는 함수
장점 | • 최적의 값을 찾아갈 수 있음
• 상대적으로 시간 적게 소요 → 이전 성능 결과에 대한 사전 지식이 반영되기 때문 |
단점 | • Random하게 찍은 값이 달라질 경우, 최적화 하는데 오래 걸릴 수 있음.
• Random하게 찍은 값이 부족하면, 최적의 값을 탐색하는 게 불가능 할 수 있음.
• Rnadom하게 찍은 값이 너무 많으면, 최적화 이전에 이미 최적값을 가지고 있을 수 있음. |
•
관측치가 추가됨에 따라 Gaussian process 모델이 target에 근접해지고 불확실성이 줄어듦(confidence interval 축소)
•
Utility Function ⇒ Surrogate function에서 가장 큰 기댓값을 주는 Hyperparameter(x값)를 다음 trial에서 선택
*베이즈 확률론
: 새로운 정보를 받은 후 갱신된 신뢰도 ⇒ 사후 확률(posterior)
: 어떤 사건이 발생했다는 주장에 대한 신뢰도 ⇒ 사전 확률(Prior)
(Hypothesis) : 어떤 사건이 발생했다는 주장
(Evidence) : Evidence를 관측하고 갱신하기 전 후의 내 주장에 관한 신뢰도
조건부 확률
Reference
•
•
•
•
•
•
•
•
https://bioinformaticsandme.tistory.com/m/47 베이지안 반대 빈도 확률