Python

빈도 분석 데이터 양을 이용해서 분석 갯수 또는 비율을 이용해서 비교 보통 범주형 데이터를 주로 사용함 막대 그래프 또는 원형 차트 등으로 크기 비교함 추이 분석 시간적 흐름에 따라 변화를 분석 시간 데이터를 주로 사용함 선 그래프로 흐름을 비교함 데이터 종류 범주형 데이터 : 구분이 가능한 형태의 데이터(빈도) 연속형 데이터 : 구분이 불가능한 형태의 데이터(추이)
날짜 타입 변환하기 pd.to_datetime() : 날짜 타입으로 형 변환하기 ### 날짜 타입으로 형 변환하기 new_dates = pd.to_datetime(dates) new_dates 날짜 데이터 추출하기 to_period() : 날짜 타입의 데이터 중에 년월일 데이터 추출 freq = "D" : 년월일까지 추출 freq = "M" : 년월까지 추출 freq = "Y" : 년도까지 추출 # 년월일 추출 dates.to_period(freq = "D") # 년월 추출 dates.to_period(freq = "M") # 년도 추출 dates.to_period(freq = "Y") dt.속성 : 날짜에서 하나만 추출하기 속성 : date, year, month, day, time, hour, min..
결측치 처리하기 - 결측치 확인하기 결측치 : 값이 없다는 의미. 또는 존재하지 않는다는 의미. NaN 또는 Null로 표현됨 결측치 처리 방법 결측치가 있는 부분의 데이터를 사용할지/말지 결정 사용안한다면, 컬럼과 행 중에 어느 부분을 제거할지 결정 사용한다면, 어떻게 사용할지 결정 (대체 방법 : 평균 대체, 비율대비 대체, 0 대체) isnull() : 결측치 확인 함수. True이면 null인 데이터 notnull() : 결측치 아닌 데이터 조회. True이면 null 아닌 데이터 결측 데이터 현황 확인 : isnull().sum() sum() : 0을 넣으면 각 컬럼별 행 단위 합, 1을 넣으면 각 행별 컬럼 단위 합 # True = 1, False = 0 # True을 sum()하면 count..
시리즈 시리즈를 생성하는 클래스 : pd.Series([], index=[]) 리스트를 시리즈로 변환하기 ### 리스트를 시리즈로 변환하기 # - 리스트의 index번호는 시리즈의 index값으로 사용됨 # - 리스트의 value값은 그대로 값으로 사용됨 list_data = ["Dog", "Cat", "Tiger"] pd.Series(list_data) 딕셔너리를 시리즈로 변환하기 ### 딕셔너리를 시리즈로 변환하기 # - 딕셔너리의 key값은 시리즈의 index값으로 사용됨 # - 딕셔너리의 value값은 그대로 값으로 사용됨 dict_data = {"a" : 1, "b" : 2, "c" : 3} pd.Series(dict_data) 튜플을 시리즈로 변환하기 ### 튜플을 시리즈로 변환하기 # - 시..
데이터 통합하기 - 행 단위 통합하기 pd.concat() : axis=0으로 데이터프레임끼리 행 단위 통합하기 ignore_index=True : 데이터를 행으로 추가할 때 인덱스 번호를 순차적으로 증가시킴 # 행 단위 데이터 통합하기 pd.concat([sample_1, sample_2], ignore_index=True) - 열 단위 통합하기 pd.merge() : 두 데이터프레임을 각 데이터에 존재하는 고유값을 기준으로 병합 left : 왼쪽 메모리 영역 데이터 right : 오른쪽 메모리 영역 데이터 how : 어떻게 합칠 것인지 결정 inner : 같은 것에 대해서만 outer : 왼쪽, 오른쪽 데이터 모두에 대해서 (같은 값이 없으면 NaN) left : 왼쪽 데이터 모두에 대해서 (같은 값..
데이터 접근하기 loc : 인덱스 값으로 접근하는 방식(눈에 보이는 값 사용) iloc : 인덱스 번호로 접근하는 방식(메모리 위치 사용) iat : 특정 위치 값 1개만 조회 ### 행 데이터 추출하기 # 특정 행 지정해서 추출 (없는 인덱스 값 지정하면 오류) tips.loc[[1, 2, 3, 4, 5, 6]] # 범위를 지정해서 추출 (인덱스 값이 없어도 오류 없음) tips.loc[1:6] ### 행렬 데이터 추출 # [행, 열] 콤마로 행과 열 지정해서 추출 # loc는 컬럼명을 써줘야함 tips.loc[0:3, ["tip", "sex"]] # 대괄호 2개로 접근해서 추출 # iloc는 컬럼 인덱스 번호를 써줘야함 tips.iloc[[0,1,2,3,4], [0,1,2]] # 전체 행에 대한 전체..
데이터 조회하기 - 행 단위 데이터 조회 head() : 데이터 상위 5개만 출력. 괄호 안에 숫자를 넣으면 원하는 개수만큼 출력 tail() : 데이터 하위 5개만 출력. 괄호 안에 숫자를 넣으면 원하는 개수만큼 출력 - 열 단위 데이터 조회 Series 타입 : 열만 들어있는 데이터 타입. 튜플과 유사 DataFrame 타입 : 행렬이 들어있는 데이터 타입 # Series 타입 : 열만 들어있는 데이터 타입. 튜플과 유사 type(sample["국적코드"]) # DataFrame 타입 : 행렬이 들어있는 데이터 타입 type(sample[["국적코드"]]) # 열을 두 개 이상 출력하려면 대괄호 두 개 필요 sample[["국적코드", "성별"]] - 조건에 맞는 데이터 조회 조건 연산자를 사용하여 ..
데이터 불러오기 ./ : 현재 경로 위치 ../ : 현재 경로 위치에서 한단계 내려가기 - os import os : 운영체제에서 제공하는 기능을 사용할 수 있게 해주는 라이브러리 os.getcwd() : 현재 위치 확인하기 os.listdir() : 해당 위치에 있는 모든 폴더 및 파일 리스트로 읽어들이기 - pandas import pandas as pd : 행렬 데이터를 처리하기 위한 함수가 들어있는 라이브러리 pd.read_excel() : excel 파일 데이터프레임으로 읽어들이기 header : 열 인덱스가 있는 행 번호 지정 skipfooter : 가장 밑에서부터 제외하고자 하는 행의 갯수 입력 usecols : 읽어들일 열의 범위. "A:E"와 같이 지정 가능 sheet_name : 시트가..
Pandas import pandas as pd 행렬 데이터 처리 라이브러리 Matplotlib.pyplot import matplotlib.pyplot as plt 기본 시각화 라이브러리 Seaborn import seaborn as sns 고급 시각화 라이브러리, 데이터셋 제공 Numpy import numpy as np 수치 데이터 처리 라이브러리, 배열 형태 Json import json json 파일 처리 라이브러리
윤시·̑.̮·̑
'Python' 카테고리의 글 목록 (3 Page)