목록분류 전체보기 (57)
빅데이터 전문가 되기

😸 두 평균의 비교 (대응표본 vs 독립표본) 대응표본 t-검정(Paired Samples t-Test) - 동일한 개체 또는 그룹에서 얻은 두 관찰 값의 차이를 비교하는데 사용 - 개체 또는 그룹 간의 차이에 대한 통계적 유의성을 검정하기 위해 각 쌍의 차이에 대한 평균과 분산을 계산 합니다. 이 차이값들의 평균이 0과 유의하게 다른지를 검정합니다. - 예시: 동일한 사람들의 전 후 체중 변화 비교 독립표본 t-검정(Two Independent Sample t-Test) - 두 개의 별도된 그룹 간의 평균 차이를 비교하는데 사용 - 두 그룹의 평균과 분산을 계산하여, 두 그룹 간의 평균 차이가 통계적으로 유의미한지를 검정합니다. - 예시: 남성과 여성의 평균 소득 차이 첫번째 예시를 들어 계산해보겠습니..

😸 단일 표본 t-test란? : 통계적 가설 검정 방법 중 하나로, 주어진 표본의 평균이 특정한 값과 유의하게 다른지 검정하는데 사용합니다. z-test와 가장 큰 차이점은 모수의 표준편차를 모르고, 샘플의 표준편차를 여러번 구해서 모수의 표준편차를 추정하는 것입니다. t값 첫번째, 예시를 들어 설명하겠습니다. - 블랙 체리나무 31그루의 둘레(Girth), 높이(Height), 부피(Volume)의 데이터가 있다. 이 표본의 평균이 모평균과 일치하는지 단일표본 t-검정(One Sample t-test)을 통해 구하라. - 이 때 가설은 귀무가설은 ' 높이 평균은 75이다.', 대립가설은 ' 높이 평균은 75가 아니다.' - 단, 데이터의 각 변수들은 정규 분포를 만족한다고 가정한다. - 문제 1: 표..

😸 Z-통계량? : 일반적으로 모집단의 평균에 대한 가설을 검정하는데 이용합니다. 표본 데이터를 사용하여 모집단의 평균에 대한 가설을 확인하고, 표본의 평균과 모집단의 평균이 유의미한 차이가 있는지 판단하는데 사용합니다. z 값 SE (표준오차) 첫번째, 예시를 들어 설명하겠습니다. - 2015년 대한민국 만 7세 여자 어린이의 평균키는 120cm 이다. - 2020년 대한민국 만 7세 여자 어린이 30명의 평균 키는 125cm (표준편차 15) 일 때, 2020년 만 7세 여자 어린이의 평균키는 120cm로 볼 수 있는가? - 가설을 설정하겠습니다. 귀무가설(H0) : 2020년 만 7세 여자 어린이의 평균키는 120cm이다. 대립가설(H1) ① 2020년 만 7세 여자 어린이의 평균키는 120cm가 ..

로지스틱 회귀 모델을 이용하여 검증 및 통계 분석을 해보겠습니다. 저는 도시 양극화 지수라는 데이터를 임의로 만들어 분석하였습니다. 전국을 100으로 기준하여 상대 지표로 계산했으며, 도시 양극화에 영향을 미칠 수 인자를 설정하였습니다. 여기서, 전국 평균 데이터에서 격차가 많이 날수록 양극화일 확률이 높아집니다. target : 도시양극화면 1, 아니면 0 jb : 주택보급률 ahr : 노후주택비율 sp : 시군구의 1인당 소비금액 격차 ap : 시군구의 주택 매매가격 격차 grdp : 시군의 지역내총생산 격차 gj : 경제활동참가율 go : 고용률 cgo : 15~64세 고용률 sup : 실업률 pits : 어린이집 및 유치원 서비스권역 내 영유아인구 비율 pses : 초등학교 서비스권역 내 학령인구..

😸 회귀분석 (Regression test)이란? - 독립변수가 종속변수에 영향을 미치는지 알아보고자 할 때 실시하는 분석방법. - 규명된 함수식을 이용하여 설명변수들의 변화로부터 반응변수의 변화를 예측하는 분석. 👀 선형 회귀분석 (Linear Regression) - 지도 학습 중 예측 문제에 사용하는 알고리즘 - 새로운 데이터가 들어왔을 때 어떤 값이 될지 예측하는 문제 - 설명변수와 반응변수가 연속형 변수일 때 사용 가능 ( 설명변수가 범주형 변수인 경우 더미변수로 변환하여 회귀분석 적용 ) * 더미변수 변환이유? : 패턴이 없는 변수를 패턴을 만들어주기 위하여 0과 1로 변환시키는 것 👉 단순 선형 회귀 분석 1) 선형 회귀분석 : 하나의 직선을 찾는 것 -> 이 선을 함수로 표현한 것 : 회귀..

👀 Cross Validation(교차 검증) 이란? : 말 그대로 데이터를 교차하여 모델을 검증하는 것입니다. 'train_test_split' 함수는 데이터를 1회 분리해 모델을 학습하고 검증하지만, 교차 검증은 이를 여러번 시도해 같은 데이터로 여러번 훈련하는 효과를 통해 모델의 신뢰도를 높일 수 있게 됩니다. 👉 sklearn.model_selection.cross_validate cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan) 주요 Parameter - esti..