본문 바로가기
Data_engineering/Machine_learning

[Machine learning] 교차검증

by kyhh1229 2023. 2. 27.

머신러닝 검증 세트란 무엇인가요?

머신러닝 모델은 학습 데이터를 이용해 학습을 하고, 이를 기반으로 새로운 데이터에 대한 예측을 수행합니다. 그러나 학습 데이터는 모델이 어떻게 작동하는지 평가하기에 충분하지 않습니다. 따라서, 모델이 학습하지 않은 새로운 데이터에 대한 예측 능력을 평가하기 위해 검증 세트를 사용합니다.

검증 세트를 사용하는 이유는 무엇인가요?

검증 세트를 사용하는 이유는 머신러닝 모델이 학습한 데이터에 대해서는 높은 정확도를 보일 수 있지만, 실제 데이터에서는 성능이 떨어지는 경우가 많기 때문입니다. 이는 과적합(overfitting) 현상으로 인해 발생합니다. 검증 세트를 사용하면 과적합을 방지하고 모델의 일반화 성능을 평가할 수 있습니다.

검증 세트를 만드는 방법은 무엇인가요?

검증 세트를 만드는 방법은 간단합니다. 학습 데이터에서 일정 부분을 임의로 선택하여 검증 세트로 사용하면 됩니다. 일반적으로 검증 세트는 학습 데이터의 20% ~ 30% 정도를 사용합니다.

검증 세트를 이용한 모델 평가 방법은 무엇인가요?

검증 세트를 이용한 모델 평가 방법은 다음과 같습니다.

  1. 학습 데이터를 이용해 모델을 학습합니다.
  2. 검증 세트를 이용해 모델의 예측 정확도를 평가합니다.
  3. 모델의 하이퍼파라미터를 조정하고, 다시 학습과 검증을 반복합니다.
  4. 검증 세트를 이용해 모델의 최종 예측 정확도를 평가합니다.

이렇게 검증 세트를 이용해 모델을 평가하면 학습 데이터에 과적합되지 않은 일반화 성능이 높은 모델을 만들 수 있습니다.

 

 

교차검증 코드 예시

from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 데이터 로드
X, y = load_iris(return_X_y=True)

# 모델 초기화
svc = SVC()

# 10-fold 교차검증
kf = KFold(n_splits=10)
scores = []
for train_index, test_index in kf.split(X):
    # 학습 데이터와 검증 데이터 분리
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # 모델 학습과 예측
    svc.fit(X_train, y_train)
    y_pred = svc.predict(X_test)

    # 검증 데이터에 대한 정확도 계산
    score = accuracy_score(y_test, y_pred)
    scores.append(score)

# 최종 예측 정확도 계산
final_score = sum(scores) / len(scores)
print(f"Final score: {final_score:.3f}")

 

위 코드는 sklearn 라이브러리의 KFold 클래스를 이용해 10-fold 교차검증을 수행하는 예시입니다.

load_iris 함수를 이용해 iris 데이터를 로드하고, SVC 클래스를 이용해 SVM 모델을 초기화합니다.

 

이후 KFold 클래스를 이용해 데이터를 10개의 폴드로 분할하고, 각 폴드에 대해 모델을 학습하고 검증을 수행합니다.

최종적으로 검증 점수의 평균을 계산해 모델의 최종 예측 정확도를 계산합니다.

 

교차검증의 장단점

 

장점

  • 검증 세트를 사용하는 것보다 더욱 정확한 모델 평가가 가능합니다.
  • 데이터 세트를 여러 개로 나누어 검증하므로, 모델이 일반화 성능을 올바르게 반영할 수 있습니다.
  • 데이터를 최대한 활용할 수 있습니다.

단점

  • 계산 비용이 높습니다. 데이터를 여러 개로 나누어 모델을 학습해야 하므로, 학습 시간이 오래 걸릴 수 있습니다.
  • 교차 검증을 수행할 때마다 모델을 다시 학습해야 하므로, 모델 학습 시간이 더욱 오래 걸립니다.
  • 모델의 성능이 향상될 수 있는 하이퍼파라미터를 찾기 위해 교차검증을 수행할 때, 하이퍼파라미터의 개수가 많으면 수행 시간이 길어집니다.

'Data_engineering > Machine_learning' 카테고리의 다른 글

[알고리즘] svm  (0) 2023.02.27
[sklearn] accuracy_score  (0) 2023.02.27
[알고리즘] 앙상블_랜덤포레스트_그레이디언트  (0) 2023.02.26
[알고리즘] K-Nearest Neighbors  (0) 2023.02.26
[sklearn] predict ()  (0) 2023.02.26

댓글