목록분류 전체보기 (57)
빅데이터 전문가 되기

키워드 검색을 통해 연관검색어, 검색어의 뜻에 대하여 알 수 있도록 지식백과를 Crawling해보겠습니다. 아래는 지식백과(naver)의 사이트 주소입니다. 지식백과 주소 : 네이버 지식백과 아이들도 이해할 수 있는 어린이 백과사전부터! 대학생 수준에 맞는 전문적인 지식까지! 다양하고, 신뢰성 있는 정보를 제공합니다. terms.naver.com 저는 예시로 딸기를 키워드로 설정하여 해보겠습니다. - 연관검색어와 딸기에 대한 각 사전에서의 뜻을 1,2,3으로 하여 가져오도록 하겠습니다. - 내용에 대하여는 csv 파일로 저장하겠습니다. 👉 라이브러리 활성화 # 라이브러리 활성화 import requests import csv from bs4 import BeautifulSoup 👉 검색어와 url 지정 ..

Python의 for문을 활용하여 간단하게 구구단을 만들어보겠습니다. 👉 첫 번째: 2단 ~ 9단 구구단 만들기① : range를 활용하여 구구단을 만들어 보겠습니다. print("구구단") for x in range(2,10): print(x,"단") for y in range(1,10): print(x,"*",y,"=",x*y) print("--------------------------------") - 이중 for문을 활용하였습니다. - 앞의 for문은 "x단"을 뜻하는 것으로 2단에서 9단을 구하므로 range 범위를 2~10으로 설정합니다. - 안의 for문은 곱해주는 값을 뜻하는 것으로1~9를 곱하여 주기 때문에 range 범위를 1~10으로 설정합니다. -> 따라서, 2단 ~ 9단까지의 결..

Open API는 데이터는 데이터가 변경되었을 때 따로 업데이트를 하지 않아도 변경되는 장점이 있습니다. 하지만 그만큼 데이터가 늘어날 수도 있으므로 이 data를 bigquery에 적재하려고 합니다. 그 후 bigquery에서 데이터를 불러와서 streamlit에서 자동 업데이트가 되어 시각화할 수 있도록 만들어보겠습니다. Open API를 가져오는것은 이전에 설명을 드렸습니다. 못보신 분들은 참고하시면 되겠습니다. https://hi-210.tistory.com/36 공공데이터 API 크롤링 공공데이터 API를 크롤링하는 방법에 대하여 알아보겠습니다. 서울 열린데이터 광장의 부동산 전월세가를 활용하겠습니다. 서울 열린데이터 광장 주소입니다. https://data.seoul.go.kr/ 열린데이터광 ..

공공데이터 API를 크롤링하는 방법에 대하여 알아보겠습니다. 서울 열린데이터 광장의 부동산 전월세가를 활용하겠습니다. 서울 열린데이터 광장 주소입니다. https://data.seoul.go.kr/ 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 👉 로그인 후 검색 - 아이디가 없으시다면 회원가입 후 로그인을 해줍니다. - 통합 검색창에 원하는 데이터 내용('부동산 전월세가')을 찾습니다. 👉 인증키 신청 - 미리보기에서 OpenAPI를 클릭한 후 인증키 신청을 눌러줍니다. - 샘플 URL을 확인해보면 주소사이에 (인증키)라고 되있는 곳에 신청한 인증키를 넣어주면 됩니다. - 사용 URL에 본인의 블로그 주소를 적어주고, 이메일, 활용용도, 내용을 적어줍니다. 👉 인증키..

😸 분산 분석이란? - 세 개 이상 다수의 집단을 서로 평균에서 분산값을 비교하기 위한 가설검정 방법 - 여러 개의 그룹 간에 결과값의 우열을 가리는 통계적인 분석 방법 - 예시: 학생들의 수학 점수, 부서들의 매출 실적, 3개 이상의 반 등.. 분산 분석의 종류 - 일원분산분석(One-Way ANOVA) - 이원분산분석(Two-Way ANOVA) - 다원변량분산분석(MANOVA) - 공분산분석(ANCOVA) 일원분산분석(One way ANOVA) - 독립변수가 1개이며, Group이 여러 개일 경우에 사용하는 분석방법 - 예시 : A,B,C의 반이 있을 때 수학 성적 확인 (독립변수는 학급으로 한 개임.) 첫 번째 예시를 들어 설명하겠습니다. - 약의 종류가 있을 때, 치료방법과 효과에 대한 데이터가 ..

😸 두 평균의 비교 (대응표본 vs 독립표본) 대응표본 t-검정(Paired Samples t-Test) - 동일한 개체 또는 그룹에서 얻은 두 관찰 값의 차이를 비교하는데 사용 - 개체 또는 그룹 간의 차이에 대한 통계적 유의성을 검정하기 위해 각 쌍의 차이에 대한 평균과 분산을 계산 합니다. 이 차이값들의 평균이 0과 유의하게 다른지를 검정합니다. - 예시: 동일한 사람들의 전 후 체중 변화 비교 독립표본 t-검정(Two Independent Sample t-Test) - 두 개의 별도된 그룹 간의 평균 차이를 비교하는데 사용 - 두 그룹의 평균과 분산을 계산하여, 두 그룹 간의 평균 차이가 통계적으로 유의미한지를 검정합니다. - 예시: 남성과 여성의 평균 소득 차이 대응 표본을 이용하여 첫번째 예시..