본문 바로가기

Data_engineering36

[sklearn] train_test_split - stratify stratify 매개변수는 클래스 불균형이 있는 경우 각 클래스의 비율을 유지하도록 분할하기 위해 사용됩니다. 예를 들어, 타겟 변수 y가 0과 1로 구성되어 있고, 전체 데이터의 80%를 훈련 데이터로 사용하고 싶은 경우, stratify=y로 지정하면 각 클래스(0과 1)의 비율을 유지한 채로 80:20으로 데이터가 나누어집니다. 원하는 타겟 데이터를 찾아서 나누는 비율을 일정하게 만들어주는것 분리모델 분류 이진분류 Classifier 모델에선 항상 쓰는게 좋다는 의견 예측모델 회귀 Regressor 모델에선 잘 안쓴다는 의견 2023. 2. 26.

[Machine_learning] 훈련 세트(train)와 테스트 세트(test) 훈련 세트(train set) 훈련 세트란 모델을 학습시키는 데 사용되는 데이터의 일부분입니다. 모델이 학습하는 과정에서 훈련 세트의 데이터를 이용해 가중치(weight)와 절편(bias)을 조절하며, 최적의 모델을 만들어냅니다. 따라서, 훈련 세트의 데이터가 모델의 학습에 큰 영향을 미칩니다. 테스트 세트(test set) 반면, 테스트 세트는 학습된 모델이 얼마나 잘 일반화되어 새로운 데이터를 예측할 수 있는지를 평가하는 데 사용됩니다. 즉, 모델이 이전에 본 적 없는 새로운 데이터를 얼마나 잘 예측하는지를 측정하는 데 사용됩니다. 훈련 세트와 달리, 테스트 세트는 모델의 학습에 전혀 사용되지 않습니다. 훈련 세트와 테스트 세트의 중요성 훈련 세트와 테스트 세트를 나누는 이유는, 모델이 학습 데이터를.. 2023. 2. 26.

[Machine_learning] 지도 학습_비지도 학습 지도 학습 지도 학습은 입력 데이터와 정답 데이터가 모두 주어지는 학습 방법이다. 즉, 컴퓨터는 입력 데이터와 정답 데이터를 이용하여 학습하고, 새로운 입력 데이터가 주어졌을 때 정답을 예측한다. 이 때 입력 데이터와 정답 데이터는 짝을 이루어야 한다. 지도 학습은 대부분의 분류나 회귀 문제에서 사용된다. 예를 들어, 과일 사진이 주어졌을 때 그 과일이 어떤 과일인지 예측하는 문제가 있다고 하자. 이 때, 과일 사진을 입력 데이터로, 해당 과일의 이름을 정답 데이터로 사용하여 학습한다. 그리고 새로운 과일 사진이 주어졌을 때, 컴퓨터는 그 과일이 어떤 과일인지 예측할 수 있다. 비지도 학습 비지도 학습은 정답 데이터 없이 입력 데이터만을 이용하여 학습하는 방법이다. 즉, 컴퓨터는 입력 데이터의 구조나 패.. 2023. 2. 26.

[Machine_learning]이진분류 머신러닝에서 여러 개의 종류 ( 혹은 클래스(class) 라고 부릅니다) 중 하나를 구별해 내는 문제를 분류 ( classification ) 라고 부릅니다 2개의 클래스 중 하나를 고르는 문제를 이진 분류 ( binary classification ) 라고 합니다 여기에서 클래스는 파이썬 클래스와는 다릅니다 이진분류 ( binary calssification ) 이진 분류는 둘 중 하나의 결과를 예측하는 문제입니다. 예를 들어, 이메일이 스팸인지 아닌지, 종양이 양성인지 악성인지 등을 예측하는 문제에 적용됩니다. 이진 분류 모델은 주어진 입력 변수를 기반으로 두 개의 클래스 중 하나에 해당하는 출력 변수를 예측합니다. 일반적으로, 출력 변수는 0 또는 1로 표시되며, 0은 첫 번째 클래스를 나타내고 1.. 2023. 2. 26.

이전 1 ··· 5 6 7 8 9 다음

티스토리툴바