π» Programming/Python
[pandas] νΉμ 컬λΌμμ μ€λ³΅λ κ° μ κ±° | drop_duplicates
λ
즀
2023. 11. 17. 08:08
λ°μν
νλ€μ€ λ°μ΄ν°νλ μμμ κ°νΉ νΉμ 컬λΌμ μ€λ³΅λ κ°μ μ κ±°νκ³ μΆμ κ²½μ°κ° μλ€.
λ§μ½ μ€λ³΅λ κ°μ κ°μ§ ν μ€ μ²μ λ±μ₯νλ νμ μ μΈνκ³ λλ¨Έμ§ μ€λ³΅λ νμ λͺ¨λ μ κ±°νκ³ μΆλ€λ©΄ λ€μκ³Ό κ°μ λ°©λ²μ μ¬μ©ν μ μλ€.
import pandas as pd
# μν λ°μ΄ν°νλ μ μμ±
data = {'column_name': [1, 2, 3, 1, 2, 4]}
df = pd.DataFrame(data)
# μ€λ³΅λ κ°μ κ°μ§ ν μ€ μ²μ λ±μ₯νλ νμ μ μΈνκ³ λλ¨Έμ§ μ€λ³΅λ ν μ κ±°
df_no_duplicates = df.drop_duplicates(subset='column_name', keep='first')
# κ²°κ³Ό μΆλ ₯
print(df_no_duplicates)
# ν κ°μ λΉκ΅
print(len(df.values.tolist()))
print(len(df_no_duplicates.values.tolist()))
- drop_duplicates ν¨μμ subset 맀κ°λ³μλ μ€λ³΅μ νμΈν 컬λΌμ μ§μ νκ³ , keep 맀κ°λ³μλ μ΄λ€ μ€λ³΅κ°μ μ μ§ν μ§λ₯Ό μ€μ
- drop_duplicates(subset='column_name', keep='first') μ¬μ© μ μ²μ λνλ κ°λ§ μ μ§
- keep='last'λ‘ μ€μ μ λ§μ§λ§ λνλ κ°λ§ μ μ§
- λ°μ΄ν°νλ μμ 리μ€νΈλ‘ λ³ννμ¬ ν κ°μλ₯Ό λΉκ΅ν μ μμ
λ°μν