[pandas] DataFrame 설명 | 데이터 조작, 필터링, 시각화, 통계 분석

판다스(Pandas)

판다스(Pandas)는 파이썬에서 데이터 조작과 분석을 위한 라이브러리로, 특히 표 형식의 데이터를 다루기에 용이하다. 판다스의 주요 자료구조인 데이터프레임(DataFrame)은 행과 열로 이루어진 테이블 형식의 데이터를 다루기 위한 자료구조로 데이터를 다룰 때 자주 사용된다.

데이터프레임 생성

import pandas as pd

# 2차원 리스트로 데이터프레임 생성
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'San Francisco'],
    ['Charlie', 35, 'Los Angeles']
]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

판다스의 pd.DataFrame() 함수를 사용하여 데이터프레임을 생성할 수 있다.
일반적으로 2차원 리스트, 딕셔너리, 넘파이 배열 등을 이용하여 데이터프레임을 만든다.

데이터프레임 기본 정보 확인

# 데이터프레임의 처음 5개 행 출력
print(df.head())

# 데이터프레임의 기본 정보 출력
print(df.info())

# 데이터프레임의 통계적 요약 출력
print(df.describe())

head(), tail(), info(), describe() 등의 메서드를 사용하여 데이터프레임의 일부 데이터나 기본 정보를 확인할 수 있다.

인덱스 및 열 조작

# 인덱스를 사용하여 특정 행 선택
row = df.loc[0]

# 열의 이름을 사용하여 특정 열 선택
column = df['Name']

인덱스(index)를 사용하여 데이터프레임의 특정 행을 선택하거나, 열의 이름을 사용하여 특정 열을 선택할 수 있다.

조건 검색과 필터링

# 조건 검색
filtered_df = df[df['Age'] > 30]

# 여러 조건 결합
filtered_df = df[(df['Age'] > 30) & (df['City'] == 'San Francisco')]

조건을 사용하여 특정 조건을 만족하는 행을 검색하거나, 여러 조건을 결합하여 데이터를 필터링할 수 있다.
사실상 이런 데이터 필터링이나 검색을 위해 데이터프레임을 사용한다고 보면 된다.
리스트에서 인덱스 별로 순회하면서 데이터를 필터링하면 시간이 굉장히 오래 걸리고 여러 조건을 한 번에 필터링하기도 까다롭지만, 데이터프레임을 사용하면 간단해 진다.

데이터프레임 - 리스트 변환

import pandas as pd

# 샘플 데이터프레임 생성
data = {'A': [1, 2, 3], 'B': ['a', 'b', 'c']}
df = pd.DataFrame(data)

# 데이터프레임을 리스트로 변환
list_from_df = df.values.tolist()

# 결과 출력
print(list_from_df)

# 샘플 리스트 생성
list_data = [[1, 'a'], [2, 'b'], [3, 'c']]

# 리스트를 데이터프레임으로 변환
df_from_list = pd.DataFrame(list_data, columns=['A', 'B'])

# 결과 출력
print(df_from_list)

데이터프레임 → 리스트
- df.values는 데이터프레임의 값들을 NumPy 배열로 반환하고, tolist() 메서드를 사용하여 이를 파이썬 리스트로 변환
리스트 → 데이터프레임
- pd.DataFrame() 함수를 사용하여 리스트를 데이터프레임으로 변환
- columns 매개변수를 사용하여 열 이름을 지정할 수 있음

파일 입출력

# CSV 파일로 저장
df.to_csv('output.csv', index=False)

# CSV 파일 읽기
new_df = pd.read_csv('output.csv')

판다스는 다양한 데이터 형식으로 데이터프레임을 저장하고 읽을 수 있는 기능을 제공한다.
to_csv(), to_excel(), read_csv(), read_excel() 등의 메서드를 사용하여 파일 입출력이 가능하다.

판다스 데이터프레임은 데이터 조작, 필터링, 시각화, 통계 분석 등 다양한 작업을 수행하는 데에 편리하게 사용되는 강력한 도구이기에 한번 쯤 사용법을 익혀두면 언젠가 쓸모가 있다 !

'💻 Programming > Python' 카테고리의 다른 글

[pandas] 특정 컬럼의 값이 공백인 행을 제외하는 방법 \| dropna (0)	2023.11.17
[pandas] 특정 컬럼에서 중복된 값 제거 \| drop_duplicates (1)	2023.11.17
[pandas] 2차원 리스트를 데이터프레임으로 변환하기 \| pd.DataFrame (0)	2023.11.16
[python] 구글 검색 이미지 크롤링/스크래핑하기 (0)	2023.08.15
[python] FastAPI로 딥러닝 모델 API 구축하기 \| 문자열 파일경로, Bytes 타입 입력받기 (0)	2023.08.03

데이터프레임 생성

데이터프레임 기본 정보 확인

인덱스 및 열 조작

조건 검색과 필터링

데이터프레임 - 리스트 변환

파일 입출력

'💻 Programming > Python' 카테고리의 다른 글

티스토리툴바