목록Python/skcikit-learn (3)
빅데이터 전문가 되기

👀 Cross Validation(교차 검증) 이란? : 말 그대로 데이터를 교차하여 모델을 검증하는 것입니다. 'train_test_split' 함수는 데이터를 1회 분리해 모델을 학습하고 검증하지만, 교차 검증은 이를 여러번 시도해 같은 데이터로 여러번 훈련하는 효과를 통해 모델의 신뢰도를 높일 수 있게 됩니다. 👉 sklearn.model_selection.cross_validate cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan) 주요 Parameter - esti..

👀 선형 모델 : 대상 값이 기능의 선형 조합이 될 것으로 예상되는 회귀를 위한 일련의 방법 👉 일반 최소 제곱 : LinearRegression 계수가 있는 선형 모델에 적합 w = (w1,...wp) 데이터 세트에서 관찰된 대상과 선형 근사로 예측된 대상 사이의 잔차 제곱합을 최소화합니다. LinearRegression 메서트 배열 X, y를 가져고오고 fit 계수를 저장합니다. from sklearn import linear_model reg = linear_model.LinearRegression() # fit()메서드를 호출하여 모델 데이터에 맞춤 reg.fit([[0,0],[1,1],[2,2]],[0,1,2]) # coef_속성 사용 (데이터의 특징에 대한 가중치 포함) ## 각 특징이 출력 ..

👀 pipeline 이란? : 최종 추정기가 포함된 변환 파이프라인. 변환 목록과 최종 추정기를 순차적으로 적용합니다. 파이프라인의 중간 단계는 '변환'이여야 합니다. 파이프라인의 목적은 서로 다른 매개 변수를 설정하면서 함께 교차 검증할 수 있는 여러 단계를 조합하는 것입니다. pipeline(steps, *, memory = None, verbose = False) 👉 속성 - named_steps : 이름으로 단계에 액세스 - classes_ : 클래스 레이블 - n_features_in_ : fit 첫 번째 단계 방법 중에 표시되는 기능의 수 - feature_names_in_ : 첫 번째 단계 방법 중에 표시되는 기능의 이름 예시로 어떻게 pipeline을 어떻게 사용하는지 확인해보겠습니다. f..