본문 바로가기
Data_engineering/Machine_learning

[sklearn] train_test_split - stratify

by kyhh1229 2023. 2. 26.

 

stratify 매개변수는 클래스 불균형이 있는 경우 각 클래스의 비율을 유지하도록 분할하기 위해 사용됩니다.

예를 들어, 타겟 변수 y가 0과 1로 구성되어 있고,

전체 데이터의 80%를 훈련 데이터로 사용하고 싶은 경우,

stratify=y로 지정하면 각 클래스(0과 1)의 비율을 유지한 채로 80:20으로 데이터가 나누어집니다.

 

원하는 타겟 데이터를 찾아서 나누는 비율을 일정하게 만들어주는것

  • 분리모델 분류 이진분류 Classifier 모델에선 항상 쓰는게 좋다는 의견
  • 예측모델 회귀 Regressor 모델에선 잘 안쓴다는 의견

 

 

댓글