데이터 조회하기
- 행 단위 데이터 조회
head()
: 데이터 상위 5개만 출력. 괄호 안에 숫자를 넣으면 원하는 개수만큼 출력tail()
: 데이터 하위 5개만 출력. 괄호 안에 숫자를 넣으면 원하는 개수만큼 출력
- 열 단위 데이터 조회
- Series 타입 : 열만 들어있는 데이터 타입. 튜플과 유사
- DataFrame 타입 : 행렬이 들어있는 데이터 타입
# Series 타입 : 열만 들어있는 데이터 타입. 튜플과 유사
type(sample["국적코드"])
# DataFrame 타입 : 행렬이 들어있는 데이터 타입
type(sample[["국적코드"]])
# 열을 두 개 이상 출력하려면 대괄호 두 개 필요
sample[["국적코드", "성별"]]
- 조건에 맞는 데이터 조회
조건 연산자를 사용하여 조건에 맞는 행 단위 데이터 조회
- 조건 처리 할 때는 대괄호 1개를 사용해서 데이터 조회
# 조건 처리
condition = (sample["성별"] == "여성")
# 필터링 하기
sample[condition] # 조건에 맞는 데이터 조회
sample[condition == False] # 조건에 맞지 않는 데이터 조회
# 한번에 처리하는 방법
sample[(sample["성별"] == "여성")]
- 조건이 여러 개일 때는 논리연산자(&, |)를 이용해서 필터링
isin()
: 같은 컬럼에서 값만 다른 OR 조건이 여러개 있을 때 사용
### 국적코드가 A01이고, 입국객수가 150000 이상인 데이터만 조회
# - 조회컬럼은 국적코드, 성별, 입국객수
condition = (sample["국적코드"] == "A01") & (sample["입국객수"] >= 150000)
sample[condition][["국적코드", "성별", "입국객수"]]
### 국적코드가 A01 또는 A18인 데이터만 조회
# - 조회컬럼은 국적코드, 성별
condition = sample["국적코드"].isin(["A01", "A18"])
sample[condition][["국적코드", "성별"]]
sample[condition == False][["국적코드", "성별"]] # A01, A18을 제외한 데이터만 조회
- 고유한 값 조회
unique()
: 데이터에서 고유한 값들 조회. 결과는 array 형태
- 넘파이(Numpy) 배열(array)
- 파이썬 리스트와 동일한 형태
- 단, 같은 타입의 데이터만 넣을 수 있음
# 국적 컬럼의 고유한 값 조회하기
sample["국적"].unique()
- 데이터 개수 조회
count()
: 데이터프레임 컬럼별로 데이터가 몇 개 있는지 알려주는 함수. NaN 값은 세지 않음value_counts()
: 데이터프레임 컬럼에서 각각의 값이 나온 횟수를 세어주는 함수- 데이터프레임에 사용하면 오류. 데이터프레임 컬럼에 주로 사용
# 연령대별 개수 세기
df["연령대"].value_counts()
>> 결과
연령대
60 158
70 123
50 76
0 69
40 43
30 42
10 99
20 89
80 22
90 10
데이터 정렬하기
sort_values()
: 데이터를 정렬해주는 함수- by="컬럼명" : 컬럼 지정 (by는 생략 가능)
- axis=0 : 행(0) 기준 (디폴트값) 또는 열(1) 기준
- ascending = True : 오름차순 (디폴트값)
- ascending = False : 내림차순
# 관광객비율(%) 값 상위 5개 조회하기
# 내림차순 정렬
sample.sort_values(by="관광객비율(%)", ascending = False)
# 상위 5개 추출
sample.sort_values(by="관광객비율(%)", ascending = False).head(5)
데이터 전치하기
T
: 데이터의 행과 열을 바꾸어줌. 행렬 전환