데이터 분석을 위한 Pandas: 3. 데이터 선택 및 필터링

 Pandas에서 데이터 선택 및 필터링은 데이터 분석의 핵심 작업입니다. 다양한 방법으로 원하는 데이터를 추출하고 조작할 수 있습니다.


 열 선택


DataFrame에서 특정 열을 선택하는 방법:


# python

import pandas as pd


df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})


# 단일 열 선택

column_a = df['A']


# 여러 열 선택

columns_ab = df[['A', 'B']]

#


 행 선택


행을 선택하는 여러 방법:


# python

# 인덱스로 행 선택

row = df.loc[0]


# 슬라이싱으로 여러 행 선택

rows = df.loc[0:2]


# iloc을 사용한 정수 인덱스 기반 선택

row = df.iloc[0]

rows = df.iloc[0:2]

#


 조건부 선택


조건을 사용하여 데이터를 필터링하는 방법:


# python

# 단일 조건

filtered_df = df[df['A'] > 1]


# 복합 조건

filtered_df = df[(df['A'] > 1) & (df['B'] < 6)]

#


 데이터 정렬


데이터를 정렬하는 방법:


# python

# 단일 열로 정렬

sorted_df = df.sort_values('A')


# 여러 열로 정렬

sorted_df = df.sort_values(['A', 'B'], ascending=[True, False])

#


 그룹화 및 집계


데이터를 그룹화하고 집계하는 방법:


# python

# 그룹화 및 평균 계산

grouped = df.groupby('A').mean()


# 여러 집계 함수 적용

grouped = df.groupby('A').agg({'B': 'mean', 'C': 'sum'})

#


 결측치 처리


결측치를 다루는 방법:


# python

# 결측치 제거

cleaned_df = df.dropna()


# 결측치 채우기

filled_df = df.fillna(0)

#


 데이터 변환


데이터를 변환하는 방법:


# python

# 열 추가

df['D'] = df['A'] + df['B']


# apply 함수 사용

df['E'] = df['A'].apply(lambda x: x**2)

#


 피벗 테이블


피벗 테이블을 만드는 방법:


# python

pivot_table = pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

#


이러한 기술들을 활용하면 복잡한 데이터셋에서도 원하는 정보를 쉽게 추출하고 분석할 수 있습니다. Pandas의 강력한 기능을 통해 데이터 처리 작업을 효율적으로 수행할 수 있습니다.




#파이썬 #Python #데이터분석 #dataanalysis #pandas #indexing #filtering #boolean-indexing #pivot_table #그룹화 #집계 #결측치


0 댓글