๋ฐ์ํ
ํ๋ค์ค ๋ฐ์ดํฐํ๋ ์์์ ๊ฐํน ํน์ ์ปฌ๋ผ์ ์ค๋ณต๋ ๊ฐ์ ์ ๊ฑฐํ๊ณ ์ถ์ ๊ฒฝ์ฐ๊ฐ ์๋ค.
๋ง์ฝ ์ค๋ณต๋ ๊ฐ์ ๊ฐ์ง ํ ์ค ์ฒ์ ๋ฑ์ฅํ๋ ํ์ ์ ์ธํ๊ณ ๋๋จธ์ง ์ค๋ณต๋ ํ์ ๋ชจ๋ ์ ๊ฑฐํ๊ณ ์ถ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ์ ์๋ค.
import pandas as pd
# ์ํ ๋ฐ์ดํฐํ๋ ์ ์์ฑ
data = {'column_name': [1, 2, 3, 1, 2, 4]}
df = pd.DataFrame(data)
# ์ค๋ณต๋ ๊ฐ์ ๊ฐ์ง ํ ์ค ์ฒ์ ๋ฑ์ฅํ๋ ํ์ ์ ์ธํ๊ณ ๋๋จธ์ง ์ค๋ณต๋ ํ ์ ๊ฑฐ
df_no_duplicates = df.drop_duplicates(subset='column_name', keep='first')
# ๊ฒฐ๊ณผ ์ถ๋ ฅ
print(df_no_duplicates)
# ํ ๊ฐ์ ๋น๊ต
print(len(df.values.tolist()))
print(len(df_no_duplicates.values.tolist()))
- drop_duplicates ํจ์์ subset ๋งค๊ฐ๋ณ์๋ ์ค๋ณต์ ํ์ธํ ์ปฌ๋ผ์ ์ง์ ํ๊ณ , keep ๋งค๊ฐ๋ณ์๋ ์ด๋ค ์ค๋ณต๊ฐ์ ์ ์งํ ์ง๋ฅผ ์ค์
- drop_duplicates(subset='column_name', keep='first') ์ฌ์ฉ ์ ์ฒ์ ๋ํ๋ ๊ฐ๋ง ์ ์ง
- keep='last'๋ก ์ค์ ์ ๋ง์ง๋ง ๋ํ๋ ๊ฐ๋ง ์ ์ง
- ๋ฐ์ดํฐํ๋ ์์ ๋ฆฌ์คํธ๋ก ๋ณํํ์ฌ ํ ๊ฐ์๋ฅผ ๋น๊ตํ ์ ์์
๋ฐ์ํ