[pandas] 특정 컬럼에서 중복된 값 제거

💻 Programming/Python

[pandas] 특정 컬럼에서 중복된 값 제거 | drop_duplicates

뭅즤 2023. 11. 17. 08:08

판다스 데이터프레임에서 간혹 특정 컬럼에 중복된 값을 제거하고 싶은 경우가 있다.

만약 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행을 모두 제거하고 싶다면 다음과 같은 방법을 사용할 수 있다.

import pandas as pd

# 샘플 데이터프레임 생성
data = {'column_name': [1, 2, 3, 1, 2, 4]}
df = pd.DataFrame(data)

# 중복된 값을 가진 행 중 처음 등장하는 행을 제외하고 나머지 중복된 행 제거
df_no_duplicates = df.drop_duplicates(subset='column_name', keep='first')

# 결과 출력
print(df_no_duplicates)

# 행 개수 비교
print(len(df.values.tolist()))
print(len(df_no_duplicates.values.tolist()))

drop_duplicates 함수의 subset 매개변수는 중복을 확인할 컬럼을 지정하고, keep 매개변수는 어떤 중복값을 유지할지를 설정
drop_duplicates(subset='column_name', keep='first') 사용 시 처음 나타난 값만 유지
- keep='last'로 설정 시 마지막 나타난 값만 유지
데이터프레임을 리스트로 변환하여 행 개수를 비교할 수 있음