[sklearn] OneHotEncoder
sklearn의 OneHotEncoder OneHotEncoder는 Scikit-learn 라이브러리에서 제공하는 데이터 전처리(preprocessing) 도구 중 하나로, 범주형(categorical) 데이터를 수치형(numerical) 데이터로 변환해주는 역할을 합니다. 예를 들어, "색깔"이라는 feature가 있고 그 값으로 "빨간색", "파란색", "노란색" 등이 있다면, 이 feature을 그대로 머신러닝 모델에 넣을 수는 없습니다. 따라서, 이런 경우에 OneHotEncoder를 사용하여 "빨간색"을 [1, 0, 0], "파란색"을 [0, 1, 0], "노란색"을 [0, 0, 1]와 같이 수치형으로 변환해줍니다. OneHotEncoder의 사용 방법 OneHotEncoder를 사용하기 위해서..
2023. 2. 28.
[Pandas] mode() , values[ ]
Pandas mode() Pandas의 mode() 함수는 데이터프레임에서 최빈값(mode)을 계산하는 함수입니다. 최빈값이란 데이터에서 가장 자주 나타나는 값을 의미합니다. 사용법 import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'col1': [1, 2, 3, 3, 4, 5], 'col2': [1, 2, 2, 3, 3, 3]}) # 각 컬럼별 최빈값 구하기 mode_col1 = df['col1'].mode() mode_col2 = df['col2'].mode() print('col1의 최빈값:', mode_col1) print('col2의 최빈값:', mode_col2) 위 코드에서는 Pandas를 이용하여 데이터프레임을 생성한 후, 각 컬럼별 최빈값을 구하는..
2023. 2. 28.
[교차검증] cross_validate()
여러 개의 평가지표를 사용하고 싶을 때 사용 cross_validate() cross_validate()는 Scikit-learn 라이브러리에서 제공하는 cross-validation(교차 검증) 기능의 한 가지 방법입니다. 이 함수를 사용하면 데이터셋을 여러 개의 fold(겹)로 나누어 각각의 fold를 테스트셋으로 사용하고 나머지 fold를 학습셋으로 사용하여 모델을 학습시키고 평가하는 과정을 반복할 수 있습니다. 함수 구문 cross_validate(estimator, X, y=None, groups=None, scoring=None, n_jobs=None, cv=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', return_train_scor..
2023. 2. 27.