목록분류 전체보기 (57)
빅데이터 전문가 되기

👀 선형 모델 : 대상 값이 기능의 선형 조합이 될 것으로 예상되는 회귀를 위한 일련의 방법 👉 일반 최소 제곱 : LinearRegression 계수가 있는 선형 모델에 적합 w = (w1,...wp) 데이터 세트에서 관찰된 대상과 선형 근사로 예측된 대상 사이의 잔차 제곱합을 최소화합니다. LinearRegression 메서트 배열 X, y를 가져고오고 fit 계수를 저장합니다. from sklearn import linear_model reg = linear_model.LinearRegression() # fit()메서드를 호출하여 모델 데이터에 맞춤 reg.fit([[0,0],[1,1],[2,2]],[0,1,2]) # coef_속성 사용 (데이터의 특징에 대한 가중치 포함) ## 각 특징이 출력 ..

👀 pipeline 이란? : 최종 추정기가 포함된 변환 파이프라인. 변환 목록과 최종 추정기를 순차적으로 적용합니다. 파이프라인의 중간 단계는 '변환'이여야 합니다. 파이프라인의 목적은 서로 다른 매개 변수를 설정하면서 함께 교차 검증할 수 있는 여러 단계를 조합하는 것입니다. pipeline(steps, *, memory = None, verbose = False) 👉 속성 - named_steps : 이름으로 단계에 액세스 - classes_ : 클래스 레이블 - n_features_in_ : fit 첫 번째 단계 방법 중에 표시되는 기능의 수 - feature_names_in_ : 첫 번째 단계 방법 중에 표시되는 기능의 이름 예시로 어떻게 pipeline을 어떻게 사용하는지 확인해보겠습니다. f..

👀 merge( ) 란? :공통의 열을 기준으로 두 데이터 프레임을 합쳐주므로 나머지 열까지 조인하고 싶을 때 편리하게 사용할 수 있습니다. import pandas as pd # df1, df2의 열 이름이 같을 때 pd.merge(df1, df2, on = '공통열', how = '조인방식') # df1, df2의 열 이름이 다를 때 df1.merge(df2, left_on= 'df1의 공통컬럼명', rigth_on= 'df2의 공통컬럼명', how = '조인방식') how [default = 'inner'] : 조인 방식으로는 'left', 'right', 'inner', 'outer' 이 있음. 예시 데이터를 통하여 이해하겠습니다. fruit = pd.DataFrame({'Num':[123, 45..
👀 Warnings 이란? : 일반적으로 사용자에게 프로그램의 일부 조건을 경고하는 것이 유용한 상황일 때 사용합니다. 해당 조건에 의해 예외를 발생시키거나 프로그램을 종료하는 것을 보증하지 않는 상황에서 발생됩니다. 수업 설명 Warning 모든 경고 범주 클래스의 기본 클래스 UserWarning warn( )의 기본 범주 DeprecationWarning 폐지된 기능에 대한 경고의 베이스 범주 (경고가 다른 파이썬 개발자를 대상으로 할 때) SyntaxWarning 모호한 구문 기능에 대한 경고 베이스 범주 RuntimeWarning 모호한 런타임 기능에 대한 경고 베이스 범주 FutureWarning 폐지된 기능에 대한 경고의 베이스 범주 (파이썬으로 작성된 응용프로그램의 최종 사용자를 대상으로 ..

👀 LightGBM 이란? : Gradient Boosting 프레워크로 Tree 기반 학습 알고리즘 (리프 기준 분할 방식 사용) 기존의 다른 Tree기반 알고리즘과 다른 것은 수직적으로 확장하는 것입니다. * GMB(Gradient Boosting Machine) : 틀린 부분에 가중치를 더하면서 진행하는 알고리즘 - 장점 (1) XGBoost 대비 빠른 학습과 예측 수행 시간 (2) 더 작은 메모리 사용량 - 단점 (1) 적은 데이터 세트일 경우 과적합이 발생하기 쉽다. 👉 LightGBM 하이퍼 파라미터 : LGBM의 경우 복잡한 것은 파라미터 튜닝입니다. Light GBM은 100개 이상의 파라미터를 커버하고 있기 때문입니다. - max_depth [default = 1] : Tree의 최대 깊..
👀 더미변수(Dummy variable) 란? - 가변수로, 독립변수를 0과 1로 변환한 변수 - 패턴이 없는 변수를 이용해 의미있는 패턴(연속형 변수)을 만들어 주기 위해서 사용 👉 더미 변수 생성 시 유념할 점! 1. 범주에 대해 0과 1의 수치를 부여한다. 2. 범주 수보다 하나 적은 갯수만큼의 변수를 생성한다. 3. 더미변수에 대해 적절한 변수명을 붙인다. 예시로 더미변수의 특징에 대해 알아보겠습니다. 학력에 따른 data 학력 : 고졸 미만, 고졸, 대졸, 대학원 졸업 고졸미만: 고졸미만(less than high school) 1, 기타(otherwise) 0 고졸: 고졸(high school diploma) 1, 기타(otherwise) 0 대졸: 대졸(college degree) 1, 기타..