Scikit-learn GridSearchCV에 여러 score 설정

Posted May 4, 2024

By Yehoon Lee 4 min read

Scikit-learn 모델을 훈련하면서 여러 score에 대해 확인하려고 한다.
GridSearchCV를 설정해서 이를 쉽게 구현할 수 있다.

예시 Classification

  
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# iris 데이터셋 불러오기
X, y = load_iris(return_X_y=True)

# 훈련, 테스트 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# classifier 설정
clf = RandomForestClassifier()

# parameter grid 설정
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10]
}

# scoring metrics 설정
scoring = {
    'accuracy': 'accuracy',
    'precision': 'precision_macro',
    'recall': 'recall_macro',
    'f1_score': 'f1_macro'
}

# grid search 수행
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, scoring=scoring, refit='accuracy')
grid_search.fit(X_train, y_train)

# best model and parameters 확인
best_model = grid_search.best_estimator_
best_params = grid_search.best_params_

# 예측
y_pred = best_model.predict(X_test)

# metrics 계산
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')

print('Best Parameters:', best_params)
print('Accuracy:', accuracy)
print('Precision:', precision)
print('Recall:', recall)
print('F1-score:', f1)

Scikit-learn scoring: https://scikit-learn.org/stable/modules/model_evaluation.html

dictionary scoring에 '이름': 'Scikit-learn scoring' 지정
GridSearchCV에 scoring=scoring 전달하고, refit='Scikit-learn scoring' 설정

Metrics

회귀

평균 제곱 오차 (MSE):
- MSE는 오차의 제곱의 평균으로 예측 값과 실제 값 사이의 평균 제곱 차이를 측정
- 큰 오류에 더 많은 가중치를 부여
평균 절대 오차 (MAE):
- MAE는 절대 오차의 평균으로 예측 값과 실제 값 사이의 평균 절대 차이를 측정
- MSE에 비해 이상치에 덜 민감
R^2 (결정 계수):
- R^2는 종속 변수의 변동성 중 독립 변수로부터 예측 가능한 변동성의 비율을 측정
- 1은 완벽한 적합을 나타냄

데이터 분석

Pandas Scikit-learn

This post is licensed under CC BY 4.0 by the author.

Scikit-learn GridSearchCV에 여러 score 설정

예시 Classification

Metrics

분류

Macro, Micro

회귀

Trending Tags