์๋ ํ์ธ์, ์๋น ๊ฐ๋ฐ์ & AI/ML ์์ง๋์ด ์ฌ๋ฌ๋ถ! ๐ ์ค๋์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ํด ์ด์ผ๊ธฐํด ๋ณด๋ ค๊ณ ํด์. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ AI ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ ์ ๊ผญ ๊ฑฐ์ณ์ผ ํ๋ ์ค์ํ ๋จ๊ณ์ธ๋ฐ์, ํนํ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ์ ๋ฐ์ดํฐ ์ ๊ทํ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ํ์์ ์ธ ์์ ์ด์์. ์ด ๊ธ์์๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ์ค์์ฑ๊ณผ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ ์ ์ฉํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํด์ ๋ํด ์ค๋ช ํด ๋ณผ๊ฒ์!
๊ฒฐ์ธก์น ์ฒ๋ฆฌ: ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ์ ๋์ด๋ ํต์ฌ
๊ฒฐ์ธก์น๋ ๋ฐ์ดํฐ์ ์์ ๋๋ฝ๋ ๊ฐ์ ๋งํด์. ์ฌ๋ฌ ๊ฐ์ง ์์ธ์ผ๋ก ๊ฒฐ์ธก์น๊ฐ ์๊ธธ ์ ์๋๋ฐ์, ์๋ฅผ ๋ค์ด ๋ฐ์ดํฐ ์์ง ๊ณผ์ ์์ ๋๋ฝ๋์๊ฑฐ๋, ์ผ์๊ฐ ์ค์๋ํด์ ๋ฐ์ดํฐ๊ฐ ์์ค๋ ๊ฒฝ์ฐ๊ฐ ์์ฃ . ๊ฒฐ์ธก์น๋ฅผ ์ ๋๋ก ์ฒ๋ฆฌํ์ง ์์ผ๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ณ , ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ด ๋ฎ์์ง ์ ์์ด์.
1. ๊ฒฐ์ธก์น ์๋ณ
๋จผ์ ๊ฒฐ์ธก์น๋ฅผ ์๋ณํ๋ ๋ฐฉ๋ฒ์ด์์. ๋ฐ์ดํฐ ํ๋ ์์ ์ดํด๋ณด๊ณ , ๊ฐ ์ด์ ๊ฒฐ์ธก์น๊ฐ ์ผ๋ง๋ ์๋์ง ํ์ธํ๋ ๊ฒ์ด ์ฒซ ๋จ๊ณ๋๋๋ค. ํ์ด์ฌ์ Pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๊ฐ๋จํ๊ฒ ๊ฒฐ์ธก์น๋ฅผ ํ์ธํ ์ ์์ด์. ๐
2. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ด์. ์ฃผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ ์๊ฐํ ๊ฒ์. ๐
(1) ๊ฒฐ์ธก์น ์ ๊ฑฐ
๊ฒฐ์ธก์น๊ฐ ์๋ ํ์ด๋ ์ด์ ์์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ด์์. ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ง๊ณ , ๊ฒฐ์ธก์น๊ฐ ํน์ ๋ถ๋ถ์ ๋ชฐ๋ ค ์์ ๋ ์ ์ฉํด์.
(2) ๊ฒฐ์ธก์น ๋์ฒด (Imputation)
๊ฒฐ์ธก์น๋ฅผ ํน์ ๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ๋ ์์ด์. ํ๊ท ๊ฐ, ์ค์๊ฐ, ์ต๋น๊ฐ ๋ฑ์ผ๋ก ๋์ฒดํ ์ ์๋๋ฐ, ์ด ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ์ ์์ค์ ์ต์ํํ๋ฉด์ ๊ฒฐ์ธก์น๋ฅผ ์ฒ๋ฆฌํ ์ ์์ด ์ข๋ต๋๋ค.
(3) ์์ธก ๋ชจ๋ธ์ ์ฌ์ฉํ ๋์ฒด
๊ณ ๊ธ ๊ธฐ๋ฒ์ผ๋ก, ๋ค๋ฅธ ๋ณ์๋ค์ ์ด์ฉํด ๊ฒฐ์ธก์น๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด์์. ๋ณต์กํ์ง๋ง ๋์ ์ ํ๋๋ฅผ ๊ธฐ๋ํ ์ ์์ด์. ๐ฎ
๋ฐ์ดํฐ ์ ๊ทํ: ๋ฐ์ดํฐ ๊ฐ ๊ท ํ ๋ง์ถ๊ธฐ
๋ฐ์ดํฐ ์ ๊ทํ๋ ๋ฐ์ดํฐ๋ฅผ ์ผ์ ํ ๋ฒ์๋ก ๋ณํํ๋ ๊ณผ์ ์ ๋งํด์. ์ ๊ทํ๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ท ํ์ ๋ง์ถ๊ณ , ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ดํดํ ์ ์๋๋ก ๋๋ ์ญํ ์ ํด์. ํนํ, ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ด๋ ์ ๊ฒฝ๋ง์์๋ ์ ๊ทํ๊ฐ ํ์์ ์ด๋๋๋ค.
1. ๋ฐ์ดํฐ ์ ๊ทํ์ ํ์์ฑ
์ ๊ทํ๋ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก ์ค์ํด์:
- ๋ชจ๋ธ ํ์ต ์์ ์ฑ: ๋ฐ์ดํฐ ๊ฐ์ด ๋๋ฌด ์ฐจ์ด๊ฐ ๋๋ฉด ๋ชจ๋ธ์ด ํน์ ๋ณ์์ ๋ฏผ๊ฐํด์ง ์ ์์ด์. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๋ฐ์ดํฐ ๋ฒ์๋ฅผ ์กฐ์ ํ๋ต๋๋ค.
- ์๋ ํฅ์: ์ ๊ทํ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต ์๋๋ฅผ ๊ฐ์ ํ ์ ์์ด์. ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ ๋นจ๋ฆฌ ํ์ตํ๊ณ ํจ์จ์ ์ผ๋ก ๊ณ์ฐํ ์ ์๊ฒ ๋์ฃ .
- ์ต์ ํ์ ์ฉ์ด์ฑ: ์ ๊ทํ๋ ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์ ์ต์ ํ ๊ณผ์ ์ ๋ ์ฝ๊ฒ ๋ง๋ค์ด์ค์. ์ต์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ฐพ๋ ๋ฐ๋ ๋์์ด ๋๋ต๋๋ค.
2. ์ ๊ทํ ๋ฐฉ๋ฒ
์ฃผ๋ก ์ฌ์ฉํ๋ ์ ๊ทํ ๋ฐฉ๋ฒ์ ์๊ฐํ ๊ฒ์.
(1) ์ต์-์ต๋ ์ ๊ทํ (Min-Max Scaling)
๋ฐ์ดํฐ๋ฅผ 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ด์์. ๋ฐ์ดํฐ์ ์ต์๊ฐ์ 0, ์ต๋๊ฐ์ 1๋ก ๋ณํ๋ผ์.
(2) ํ์คํ (Standardization)
๋ฐ์ดํฐ๋ฅผ ํ๊ท ์ด 0, ํ์คํธ์ฐจ๊ฐ 1์ด ๋๋๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ด์์. ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅผ ๋ ํจ๊ณผ์ ์ด๋๋๋ค.
(3) ๋ก๊ทธ ๋ณํ (Log Transformation)
๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ ๊ท๋ถํฌ์ ๊ฐ๊น๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ด์์. ํนํ ๊ฐ์ ์ฐจ์ด๊ฐ ํฐ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ๋ ์ ์ฉํ๋ต๋๋ค ๐
๊ด๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํด
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ํ๊ธฐ ์ํด ์์๋๋ฉด ์ข์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํด์ ์๊ฐํ ๊ฒ์.
1. Pandas
Pandas๋ ๋ฐ์ดํฐ ์กฐ์๊ณผ ๋ถ์์ ํ์์ ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์. ๋ฐ์ดํฐ ํ๋ ์์ ๋ค๋ฃจ๊ธฐ ์ํ ๋ค์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ๊ฒฐ์ธก์น ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ ๋ณํ์ ๋งค์ฐ ์ ์ฉํ๋ต๋๋ค.
- ๊ฐ์ : ๋ฐ์ดํฐ ์กฐ์์ ์ฉ์ด์ฑ, ๋ค์ํ ๊ธฐ๋ฅ ์ ๊ณต
- ํ์ต ์๋ฃ: Pandas ๊ณต์ ๋ฌธ์
2. NumPy
NumPy๋ ๋๊ท๋ชจ ๋ค์ฐจ์ ๋ฐฐ์ด๊ณผ ํ๋ ฌ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์. ์์น ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋ฐ ํ์์ ์ด๋ฉฐ, ๋ฐ์ดํฐ ์ ๊ทํ์ ๊ฐ์ ์ํ์ ์ฐ์ฐ์ ๋น ๋ฅด๊ฒ ์ํํ ์ ์์ด์.
- ๊ฐ์ : ๋น ๋ฅธ ์ฐ์ฐ ์๋, ๋ค์ํ ์ํ์ ๊ธฐ๋ฅ
- ํ์ต ์๋ฃ: NumPy ๊ณต์ ๋ฌธ์
3. Scikit-learn
Scikit-learn์ ๋จธ์ ๋ฌ๋์ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ๋ค์ํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฅ์ ์ ๊ณตํด์. ๊ฒฐ์ธก์น ๋์ฒด, ๋ฐ์ดํฐ ์ ๊ทํ, ๋ฐ์ดํฐ ๋ถํ ๋ฑ ๋ค์ํ ์ ์ฒ๋ฆฌ ์์ ์ ์ฝ๊ฒ ํ ์ ์๋ต๋๋ค.
- ๊ฐ์ : ๊ด๋ฒ์ํ ๋จธ์ ๋ฌ๋ ๋๊ตฌ ์ ๊ณต, ์ฌ์ฉ์ ์ฉ์ด์ฑ
- ํ์ต ์๋ฃ: Scikit-learn ๊ณต์ ๋ฌธ์
4. Dask
Dask๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์. ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ํตํด ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ์ ์์ด, ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ์ ๋งค์ฐ ์ ์ฉํ๋ต๋๋ค.
- ๊ฐ์ : ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ธฐ๋ฅ
- ํ์ต ์๋ฃ: Dask ๊ณต์ ๋ฌธ์
5. Feature-engine
Feature-engine์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ๊ฒฐ์ธก์น ์ฒ๋ฆฌ, ์ค์ผ์ผ๋ง, ์ธ์ฝ๋ฉ ๋ฑ ๋ค์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํด์. Scikit-learn๊ณผ์ ํตํฉ์ด ์ฉ์ดํด, ๋จธ์ ๋ฌ๋ ํ์ดํ๋ผ์ธ์ ์ฝ๊ฒ ์ ์ฉํ ์ ์๋ต๋๋ค.
- ๊ฐ์ : ๋ค์ํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฅ, Scikit-learn๊ณผ์ ํตํฉ
- ํ์ต ์๋ฃ: Feature-engine ๊ณต์ ๋ฌธ์
๊ฒฐ๋ก
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๋ AI ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ์ค์ํ ๋จ๊ณ์์. ํนํ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ์ ๋ฐ์ดํฐ ์ ๊ทํ๋ ๋ฐ์ดํฐ์ ํ์ง์ ๋์ด๊ณ , ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ดํดํ๊ณ ํ์ตํ ์ ์๋๋ก ๋์์ค๋ต๋๋ค. ์ค๋ ์๊ฐํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์ฌ๋ฌ๋ถ๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ ์ ํ๊ณ , ๋ ๋์ ๋ชจ๋ธ์ ๋ง๋ค์ด ๋ณด์ธ์ ๐
'๐ป Programming > AI ์์ง๋์ด์ ๊ฟํ๐ฏ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋ฐ์ดํฐ ์๊ฐํ์ ์ค์์ฑ๊ณผ ์๊ฐํ ๋๊ตฌ (Matplotlib & Seaborn) (0) | 2024.07.07 |
---|---|
๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๋ถ์์ NumPy์ Pandas๊ฐ ํ์์ธ ์ด์ !? (0) | 2024.07.07 |