본문 바로가기

Data_engineering/Machine_learning18

[Machine learning] 교차검증 머신러닝 검증 세트란 무엇인가요? 머신러닝 모델은 학습 데이터를 이용해 학습을 하고, 이를 기반으로 새로운 데이터에 대한 예측을 수행합니다. 그러나 학습 데이터는 모델이 어떻게 작동하는지 평가하기에 충분하지 않습니다. 따라서, 모델이 학습하지 않은 새로운 데이터에 대한 예측 능력을 평가하기 위해 검증 세트를 사용합니다. 검증 세트를 사용하는 이유는 무엇인가요? 검증 세트를 사용하는 이유는 머신러닝 모델이 학습한 데이터에 대해서는 높은 정확도를 보일 수 있지만, 실제 데이터에서는 성능이 떨어지는 경우가 많기 때문입니다. 이는 과적합(overfitting) 현상으로 인해 발생합니다. 검증 세트를 사용하면 과적합을 방지하고 모델의 일반화 성능을 평가할 수 있습니다. 검증 세트를 만드는 방법은 무엇인가요? 검증.. 2023. 2. 27.
[알고리즘] 앙상블_랜덤포레스트_그레이디언트 정형 데이터와 비정형 데이터 정형 데이터 ex) csv 파일에 가지런히 정리되어 있는 데이터들 정형 데이터는 CSV나 데이터베이스 혹은 Excel에 저장하기 쉽다 비정형 데이터 데이터베이스나 엑셀로 표현하기 어려운 것들 ex) 책의 글 과 같은 텍스트 , 카메라로 찍은 사진 , 핸드폰으로 듣는 음악 등 지금까지 배운 머신러닝 알고리즘은 정형 데이터에 잘 맞는다 그중에 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이 앙상블 학습 이 알고리즘은 대부분 결정트리를 기반으로 만들어졌다 그럼 비정형 데이터에는 어떤 알고리즘을 사용해야 할까? 신경망 알고리즘 비정형 데이터는 규칙성을 찾기 어려워 전통적인 머신러닝 방법으로는 모델을 만들기 까다롭다 하지만 신경망 알고리즘의 놀라운 발전 덕분에 사진을 인식.. 2023. 2. 26.
[알고리즘] K-Nearest Neighbors KNeighborsClassifier() KNeighborsClassifier()는 K-최근접 이웃 알고리즘을 사용하여 분류 모델을 만들기 위한 함수입니다. K-최근접 이웃 알고리즘은 새로운 데이터 포인트를 분류하기 위해 가장 가까운 K개의 이웃 데이터 포인트를 확인하고, 이 이웃들의 레이블을 참조하여 새 데이터 포인트의 레이블을 예측합니다. KNeighborsClassifier() 함수는 다양한 하이퍼파라미터를 가지고 있으며, 이를 조정하여 모델 성능을 향상시킬 수 있습니다. 예를 들어, K 값은 이웃의 수를 조정하는데 사용되며, 더 작은 K 값은 모델의 유연성을 높이고 더 많은 노이즈를 수용할 수 있지만, 더 큰 K 값은 보다 안정적인 모델을 만들어 줍니다. from sklearn.neighbors .. 2023. 2. 26.
[sklearn] predict () sklearn의 predict() 메서드란? predict() 메서드는 sklearn 라이브러리의 주요 메서드 중 하나입니다. 이 메서드는 모델에 새로운 데이터를 입력하면 모델이 예측한 출력 값을 반환합니다. 예를 들어, 붓꽃 종을 분류하는 모델을 학습시킨 후, 새로운 붓꽃의 꽃잎과 꽃받침의 길이와 너비 값을 입력하면, predict() 메서드를 이용하여 해당 붓꽃의 종을 예측할 수 있습니다. 예시 다음은 sklearn의 KNeighborsClassifier 모델을 이용하여 붓꽃 데이터를 분류하는 예시 코드입니다. from sklearn.datasets import load_iris from sklearn.neighbors import KNeighborsClassifier # 붓꽃 데이터 로드 iris .. 2023. 2. 26.