Python과 Pandas를 활용한 실무 데이터 분석 가이드
데이터 분석은 현대 비즈니스의 핵심 요소가 되었습니다. Python의 Pandas 라이브러리는 데이터 분석을 위한 가장 강력한 도구 중 하나입니다. 이 글에서는 실제 업무에서 활용할 수 있는 Pandas를 사용한 데이터 분석 방법을 알아보겠습니다.
# 1. Pandas 기초 설정
먼저 필요한 라이브러리를 임포트하고 기본 설정을 해보겠습니다:
```python import pandas as pd import numpy as np import matplotlib.pyplot as plt # 한글 폰트 설정 (matplotlib) plt.rcParams['font.family'] = 'Malgun Gothic' # 소수점 표시 형식 설정 pd.set_option('display.float_format', lambda x: '%.2f' % x) ```
# 2. 데이터 불러오기와 기본 전처리
실제 업무에서 가장 많이 마주치는 CSV 파일을 다루는 방법을 알아보겠습니다:
```python # CSV 파일 불러오기 df = pd.read_csv('sales_data.csv') # 기본 데이터 확인 print(df.info()) # 데이터 정보 확인 print(df.describe()) # 기술 통계량 확인 # 결측치 처리 df = df.fillna(method='ffill') # 앞의 값으로 채우기 # 중복 제거 df = df.drop_duplicates() ```
# 3. 데이터 분석 실전 예제
실제 매출 데이터를 분석하는 예제를 살펴보겠습니다:
```python # 일별 매출 집계 daily_sales = df.groupby('date')['amount'].sum() # 월별 매출 트렌드 분석 monthly_sales = df.groupby(pd.Grouper(key='date', freq='M'))['amount'].sum() # 제품별 매출 분석 product_sales = df.groupby('product_name').agg({ 'amount': 'sum', 'quantity': 'sum' }).sort_values('amount', ascending=False) ```
# 4. 데이터 시각화
분석한 데이터를 시각화하는 방법입니다:
```python # 월별 매출 트렌드 그래프 plt.figure(figsize=(12, 6)) monthly_sales.plot(kind='line') plt.title('월별 매출 추이') plt.xlabel('날짜') plt.ylabel('매출액') plt.grid(True) plt.show() # 제품별 매출 파이 차트 plt.figure(figsize=(10, 10)) plt.pie(product_sales['amount'][:5], labels=product_sales.index[:5], autopct='%1.1f%%') plt.title('상위 5개 제품 매출 비중') plt.show() ```
# 5. 고급 데이터 분석 기법
더 심도 있는 분석을 위한 고급 기법들입니다:
```python # 피벗 테이블 활용 pivot_table = df.pivot_table( values='amount', index='product_category', columns='region', aggfunc='sum', fill_value=0 ) # 시계열 분석 # 이동평균 계산 rolling_mean = daily_sales.rolling(window=7).mean() # 성장률 계산 growth_rate = daily_sales.pct_change() * 100 ```
# 6. 실무 활용 팁
1. 데이터 정합성 검증 - 합계가 맞는지 확인 - 날짜가 연속적인지 확인 - 이상치 검출
2. 성능 최적화 - 대용량 데이터는 청크 단위로 처리 - dtypes 최적화로 메모리 사용량 줄이기 - 인덱싱 활용
3. 자동화 - 반복적인 분석은 함수로 만들기 - 정기 보고서는 자동화하기 - 데이터 파이프라인 구축
# 결론
Pandas를 활용한 데이터 분석은 비즈니스 인사이트를 도출하는 강력한 도구입니다. 기본적인 데이터 처리부터 고급 분석 기법까지 마스터한다면, 데이터 기반의 의사결정에 큰 도움이 될 것입니다.
# 추천 학습 리소스
1. Pandas 공식 문서 2. Python for Data Analysis (도서) 3. Kaggle의 데이터 분석 예제 4. DataCamp의 Pandas 강좌