Python/Data Analytics

IT 프로젝트 진행 순서 폭포수 모형 계획 기간, 비용, 장소, 숙박, 인원 등 요구사항 수렴 메모, 녹음 요구사항 분석 요구사항 정의서 산출물 문서 분석설계 화면설계 - 화면 정의서 산출물 문서 DB설계 - 테이블 정의서 산출물 문서, 객체 관계도(ERD) 산출물 문서 시스템설계 - 서버(DB, WEB), OS(개발운영체제), 라이브러리, 개발 툴(Tool) 구현 시스템 설치, DB(SQL), 화면(웹 디자인), 개발(프로그래밍), 분석 및 시각화 테스트 단위 테스트, End to End 테스트, 통합 테스트 서비스 유지보수 분석 프로젝트 진행 순서 사전계획 사전 데이터 샘플링 사전 분석 본 계획 본 데이터 수집 전처리 가공 후처리 시각화 및 인사이트 도출 추가 자동화(머신러닝, 딥러닝) 빅데이터 플랫..
멜론 차트 웹크롤링하기 웹크롤링 방식 BeautifulSoup 방식 : 파서(html.parser) 사용함 selenium 방식 : 파서 사용안함 BeautifulSoup 방식 # 멜론 차트 Top10 추출하기 from bs4 import BeautifulSoup from selenium import webdriver driver = webdriver.Chrome("C:/ChromeDriver_exe/chromedriver.exe") url = "http://www.melon.com/chart/index.htm" driver.get(url) # BeautifulSoup 방식 soup = BeautifulSoup(driver.page_source, "html.parser") title = soup.sele..
사용하는 라이브러리 from selenium import webdriver selenium : 웹 코드를 컨트롤 할 때 사용 webdriver : 웹브라우저를 제어할 때 사용하는 라이브러리. 웹 사이트에 접속하여 코드를 읽어들임 from bs4 import BeautifulSoup 시작 전 설치할 것 pip install selenium : 웹 코드를 컨트롤하기 위한 라이브러리 chrome driver : webdriver 사용을 위한 크롬 드라이버 다운로드 다운로드 URL : https://sites.google.com/chromium.org/driver/ 크롬 드라이버 활용하기 webdriver.Chrome("크롬 드라이버 위치") : 크롬 드라이버 실행하기 get(url) : url에 접속한 후 접..
사용하는 라이브러리 import pandas as pd : 데이터프레임 다루기 위한 라이브러리 from bs4 import BeautifulSoup : 웹 문서 처리 라이브러리 import requests : 웹에서 요청/응답을 처리하는 라이브러리 시작 전 설치할 것 pip install lxml : lxml 포맷을 사용하기 위한 패키지 설치 Open API 데이터 불러오기 서비스 인증키(encoding key) : 데이터 요청 시 사용 응답하는 서버에서 인증키가 없으면 응답 안함 apikey 변수에 인증키 담아서 사용 numOfRows, pageNo 등 : 요청시 사용하는 파라미터 요청 url : 요청 url에 요청 파라미터 변수들을 넣어서 보내야 함 # 서비스 인증키(encoding key) apik..
메타 데이터 메타 데이터(Meta data) : 데이터에 관해 구조화된 데이터. 다른 데이a터를 설명해주는 데이터 메타 데이터에서 영문 컬럼명과 한글 컬럼명을 불러와 컬럼명 변경하기 # 기존 컬럼명과 바꿀 컬럼명을 딕셔너리 형태로 만들기 # 메타 데이터 : df_col # 1. for문 사용 dict_col = {} for i in range(len(df_col)) : dict_col[df_col["영문명"][i]] = df_col["한글명"][i] # 2. zip() 함수 사용 dict_col = {} for key, value in zip(df_col["영문명"], df_col["한글명"]) : dict_col[key] = value # 3. dict() 함수와 zip() 함수 사용 dict_col ..
지도 시각화 import folium : 지도 시각화에 사용하는 라이브러리 conda install -c conda-forge folium : 처음 folium 사용하기 전 설치하기 - 기본 지도 그리기 folium.Map() : 지도를 그리는 클래스 location : 최초에 보여줄 지도의 중심 위치 지정. 위/경도를 이용해 지정함 [37.573050, 126.979189] : 서울 중심점 tiles : 지도 스타일 지정하기 "openstreetmap” : 도시형 건물 스타일 "Stamen Terrain" : 산림 위주의 스타일 "cartoDBpositron" : 하천이나 도로 위주 스타일 "cartoDB dark_matter" : 하천이나 도로 위주 어두운 스타일 zoom_start : 최초에 보여줄..
seaborn 시각화 import seaborn as sns : 고급 시각화 라이브러리, 데이터셋 제공 - 데이터셋 불러오기 sns.load_dataset() : seaborn에서 제공하는 데이터셋 불러오기 iris, titanic, tips, flights 등 - 그래프 그리기 sns.set_palette() : 그래프 색상 변경하기 기본 팔레트 색상 : deep, muted, pastel, bright, dark, colorblind sns.lineplot(x, y, data) : 선 그래프 그리기 hue : 변량에 따라 색을 다르게 표시 sns.barplot(x, y, data) : 막대 그래프 그리기 오차 막대 : 비교 데이터간의 차이를 표시함 errorbar=None : 오차 막대를 표시하지 않..
matplotlib 시각화 import matplotlib.pyplot as plt : 기본 시각화 라이브러리 - 그래프 그리기 plt.figure(figsize=()) : 그래프 크기 조절 plt.plot() : 기본 그래프 그리는 함수 label : 범례에 표시될 라벨 지정 c : 선 색상 lw : 선 굵기 ls : 선 스타일 marker : 마커 모양 ms : 마커 크기 mfc : 마커 내부 채우기 mec : 마커 테두리 색상 mew : 마커 테두리 두께 plt.title() : 그래프 제목 지정 plt.xlabel() : x축 이름 지정 plt.ylabel() : y축 이름 지정 plt.xlim() : x축의 범위 지정 plt.ylim() : y축의 범위 지정 plt.xticks() : x축의 눈..
Pandas 시각화 import pandas as pd : pandas 라이브러리 plot() : 데이터프레임에 사용하면 숫자값들만 시각화해줌 kind="line" 선 그래프 (디폴트값) kind="box" 박스플롯 그래프 kind="bar" 막대 그래프(수직) kind="pie" 원형 그래프 kind="barh" 막대 그래프(수평) kind="scatter" 산점도 그래프 kind="hist" 히스토그램 그래프 kind="kde" 커널 밀도 그래프 # 데이터프레임에서 제공하는 시각화 # 선 그래프 df.plot(kind="line") # 히스토그램 그래프 df.plot(kind="hist") # 박스플롯 그래프 df.plot(kind="box")
윤시·̑.̮·̑
'Python/Data Analytics' 카테고리의 글 목록