Pandas에서 데이터 선택 및 필터링은 데이터 분석의 핵심 작업입니다. 다양한 방법으로 원하는 데이터를 추출하고 조작할 수 있습니다.
열 선택
DataFrame에서 특정 열을 선택하는 방법:
# python
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
# 단일 열 선택
column_a = df['A']
# 여러 열 선택
columns_ab = df[['A', 'B']]
#
행 선택
행을 선택하는 여러 방법:
# python
# 인덱스로 행 선택
row = df.loc[0]
# 슬라이싱으로 여러 행 선택
rows = df.loc[0:2]
# iloc을 사용한 정수 인덱스 기반 선택
row = df.iloc[0]
rows = df.iloc[0:2]
#
조건부 선택
조건을 사용하여 데이터를 필터링하는 방법:
# python
# 단일 조건
filtered_df = df[df['A'] > 1]
# 복합 조건
filtered_df = df[(df['A'] > 1) & (df['B'] < 6)]
#
데이터 정렬
데이터를 정렬하는 방법:
# python
# 단일 열로 정렬
sorted_df = df.sort_values('A')
# 여러 열로 정렬
sorted_df = df.sort_values(['A', 'B'], ascending=[True, False])
#
그룹화 및 집계
데이터를 그룹화하고 집계하는 방법:
# python
# 그룹화 및 평균 계산
grouped = df.groupby('A').mean()
# 여러 집계 함수 적용
grouped = df.groupby('A').agg({'B': 'mean', 'C': 'sum'})
#
결측치 처리
결측치를 다루는 방법:
# python
# 결측치 제거
cleaned_df = df.dropna()
# 결측치 채우기
filled_df = df.fillna(0)
#
데이터 변환
데이터를 변환하는 방법:
# python
# 열 추가
df['D'] = df['A'] + df['B']
# apply 함수 사용
df['E'] = df['A'].apply(lambda x: x**2)
#
피벗 테이블
피벗 테이블을 만드는 방법:
# python
pivot_table = pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
#
이러한 기술들을 활용하면 복잡한 데이터셋에서도 원하는 정보를 쉽게 추출하고 분석할 수 있습니다. Pandas의 강력한 기능을 통해 데이터 처리 작업을 효율적으로 수행할 수 있습니다.
#파이썬 #Python #데이터분석 #dataanalysis #pandas #indexing #filtering #boolean-indexing #pivot_table #그룹화 #집계 #결측치
0 댓글