목록분류 전체보기 (57)
빅데이터 전문가 되기

👀 머신러닝? - 새로운 데이터로 모델이 파악한 관계식을 적용하여 결과 예측 - 컴퓨터가 스스로 데이터 학습하며 문제를 해결하는 과정 - 머신러닝 프로세스 : 문제 파악 -> 데이터 탐색 -> 데이터 전처리 -> 모델학습 -> 예측 - 지도 학습 Y=aX+b (x: 설명변수, y: 목표변수, 회귀/분류) X와 Y 데이터에 대해 알고 있으며, 관계식을 알아내는 머신러닝 알고리즘 - 비지도 학습 Y가 주어지지 않고 X 데이터만 제공 Y를 예측하는 것이 목표가 아니라 X 데이터 사이에 존재하는 패턴, 규칙 찾는 것이 목표 군집 분석 😄 일차 함수 관계식 찾기 1. 문제 파악 X = [-3, 31, -11, 4, 0, 22, -2, -5, -25, -14] Y = [-2, 32, -10, 5, 1, 23, -1..
👀 머신러닝이란? : 사용하는 데이터를 기반으로 학습 또는 성능 향상을 지원하는 시스템을 구축하는데 초점을 맞추는 인공 지능(AI)의 하위 집합입니다. 여기서, Data Leakage는 머신러닝 예측 모델 개발 시 문제가 될 수 있습니다. 😄 예측모델의 목적? : Total loss를 최대한 줄이고, training 데이터에 포함되지 않은 새로운 데이터의 정확도를 예측하는 모델을 개발하는 것. 😄 Data Leakage (데이터 누수) 란? : training data 밖에서 유입된 정보가 모델을 만드는데 사용되는 것을 의미합니다. 즉, training data를 가지고 알고리즘 훈련을 하는데 예측하려는 정보 (test data)를 가지고 있을 때, data leakage라 할 수 있습니다. 😄 Data..

👀 Selenium 이란? : 웹 상에서 정적인 페이지를 탐색할 때는 BeautifulSoup 패키지를 동적인 크롤링을 할 때는 Seleunium 패키지를 사용합니다. 여기서 동적인 크롤링이란, url 상에는 아무런 변화없이 동작하는 웹 페이지에 대한 크롤링입니다. 😄 설정 👉 chrome driver 설정 - 크롬 드라이버 다운로드: https://chromedriver.chromium.org/downloads ChromeDriver - WebDriver for Chrome - Downloads Current Releases If you are using Chrome version 113, please download ChromeDriver 113.0.5672.24 If you are using Chr..
statmodels https://www.statsmodels.org/stable/anova.html#examples ANOVA — statsmodels ANOVA Analysis of Variance models containing anova_lm for ANOVA analysis with a linear OLSModel, and AnovaRM for repeated measures ANOVA, within ANOVA for balanced data. Examples In [1]: import statsmodels.api as sm In [2]: from statsmodels.formula.api imp www.statsmodels.org scipy 모듈 https://scipy.org/ SciPy F..

Matplotlib의 사용법에 대해 알아봅시다. 👀 Matplotlib이란? : 2차원 그래픽 패키지 예시로 그래프를 그려봅시다. # example 1 import matplotlib.pyplot as plt import numpy as np x = np.linspace (0,1,50) y1 = np.cos(4*np.pi*x) y2 = np.cos(4*np.pi*x)*np.exp(-2*x) plt.plot(x,y1) plt.plot(x,y2) plt.show() 조금 더 세밀하게 조정해봅시다. # example 2 import matplotlib.pyplot as plt import numpy as np x = np.linspace (0,1,50) y1 = np.cos(4*np.pi*x) y2 = np...
😸 pandas.DataFrame ? - 생성된 instance의 크기의 변경이 가능한 2차원 배열 - 구조: class pandas.DataFrame(data=None, index=None, columns=None, copy=None) parameter - index : instance에 설정되는 행 레이블 - columns : instance에 설정되는 열 레이블 - dtype : dtype 데이터 유형을 강제하고자 할 때 값 ( 기본값은 None이며 None일 경우 type이 자동으로 추론) 👉 축 및 레이블 인덱스를 열로 변환 (reset_index) - 설정 인덱스를 제거하고 기본 인덱스 (0,1,2, ...n)으로 변경하는 메서드 - 구조 : DataFrame.reset_index(level=..