[pandas] 특정 컬럼에서 중복된 값 제거 | drop_duplicates

판다스 데이터프레임에서 간혹 특정 컬럼에 중복된 값을 제거하고 싶은 경우가 있다.

만약 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행을 모두 제거하고 싶다면 다음과 같은 방법을 사용할 수 있다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'column_name': [1, 2, 3, 1, 2, 4]}
df = pd.DataFrame(data)

# 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행 제거
df_no_duplicates = df.drop_duplicates(subset='column_name', keep='first')

# 결과 출력
print(df_no_duplicates)

# 행 개수 비교
print(len(df.values.tolist()))
print(len(df_no_duplicates.values.tolist()))

drop_duplicates 함수의 subset 매개변수는 중복을 확인할 컬럼을 지정하고, keep 매개변수는 어떤 중복값을 유지할지를 설정
drop_duplicates(subset='column_name', keep='first') 사용 시 처음 나타난 값만 유지
- keep='last'로 설정 시 마지막 나타난 값만 유지
데이터프레임을 리스트로 변환하여 행 개수를 비교할 수 있음

'💻 Programming > Python' 카테고리의 다른 글

[pandas] 특정 컬럼에서 특정 문자열이 포함된 행 찾기 \| str.contains (0)	2023.11.17
[pandas] 특정 컬럼의 값이 공백인 행을 제외하는 방법 \| dropna (0)	2023.11.17
[pandas] DataFrame 설명 \| 데이터 조작, 필터링, 시각화, 통계 분석 (0)	2023.11.16
[pandas] 2차원 리스트를 데이터프레임으로 변환하기 \| pd.DataFrame (0)	2023.11.16
[python] 구글 검색 이미지 크롤링/스크래핑하기 (0)	2023.08.15

'💻 Programming > Python' 카테고리의 다른 글

티스토리툴바