본문 바로가기

Data_engineering36

[Pandas] .value_counts() .value_counts() 메서드 Pandas에서 제공하는 .value_counts() 메서드는 데이터프레임의 열(column)에서 고유값(unique value)의 출현 빈도수를 계산하여 반환해주는 메서드입니다. 이를 통해 해당 열에 어떤 유형의 데이터가 있는지, 각 유형이 얼마나 많은지에 대한 정보를 제공할 수 있습니다. .value_counts() 메서드는 주로 카테고리형 데이터(categorical data)에 대한 분석에 많이 사용됩니다. 또한, 막대 그래프(bar plot)나 파이 차트(pie chart)와 같은 시각화 작업을 수행하기 전에 해당 열의 데이터 분포를 빠르게 파악할 수 있는 유용한 도구입니다. 다음은 .value_counts() 메서드를 사용하여 'fruit' 열에서 각 과일이.. 2023. 3. 6.
[sklearn] OneHotEncoder sklearn의 OneHotEncoder OneHotEncoder는 Scikit-learn 라이브러리에서 제공하는 데이터 전처리(preprocessing) 도구 중 하나로, 범주형(categorical) 데이터를 수치형(numerical) 데이터로 변환해주는 역할을 합니다. 예를 들어, "색깔"이라는 feature가 있고 그 값으로 "빨간색", "파란색", "노란색" 등이 있다면, 이 feature을 그대로 머신러닝 모델에 넣을 수는 없습니다. 따라서, 이런 경우에 OneHotEncoder를 사용하여 "빨간색"을 [1, 0, 0], "파란색"을 [0, 1, 0], "노란색"을 [0, 0, 1]와 같이 수치형으로 변환해줍니다. OneHotEncoder의 사용 방법 OneHotEncoder를 사용하기 위해서.. 2023. 2. 28.
[Pandas] mode() , values[ ] Pandas mode() Pandas의 mode() 함수는 데이터프레임에서 최빈값(mode)을 계산하는 함수입니다. 최빈값이란 데이터에서 가장 자주 나타나는 값을 의미합니다. 사용법 import pandas as pd # 데이터프레임 생성 df = pd.DataFrame({'col1': [1, 2, 3, 3, 4, 5], 'col2': [1, 2, 2, 3, 3, 3]}) # 각 컬럼별 최빈값 구하기 mode_col1 = df['col1'].mode() mode_col2 = df['col2'].mode() print('col1의 최빈값:', mode_col1) print('col2의 최빈값:', mode_col2) 위 코드에서는 Pandas를 이용하여 데이터프레임을 생성한 후, 각 컬럼별 최빈값을 구하는.. 2023. 2. 28.
[교차검증] cross_validate() 여러 개의 평가지표를 사용하고 싶을 때 사용 cross_validate() cross_validate()는 Scikit-learn 라이브러리에서 제공하는 cross-validation(교차 검증) 기능의 한 가지 방법입니다. 이 함수를 사용하면 데이터셋을 여러 개의 fold(겹)로 나누어 각각의 fold를 테스트셋으로 사용하고 나머지 fold를 학습셋으로 사용하여 모델을 학습시키고 평가하는 과정을 반복할 수 있습니다. 함수 구문 cross_validate(estimator, X, y=None, groups=None, scoring=None, n_jobs=None, cv=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', return_train_scor.. 2023. 2. 27.