๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ’ป Programming/AI ์—”์ง€๋‹ˆ์–ด์˜ ๊ฟ€ํŒ๐Ÿฏ

AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ : ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ, ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”

by ๋ญ…์ฆค 2024. 7. 7.
๋ฐ˜์‘ํ˜•

์•ˆ๋…•ํ•˜์„ธ์š”, ์˜ˆ๋น„ ๊ฐœ๋ฐœ์ž & AI/ML ์—”์ง€๋‹ˆ์–ด ์—ฌ๋Ÿฌ๋ถ„! ๐Ÿ˜Š ์˜ค๋Š˜์€ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•ด ๋ณด๋ ค๊ณ  ํ•ด์š”. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋Š” AI ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์ „์— ๊ผญ ๊ฑฐ์ณ์•ผ ํ•˜๋Š” ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ธ๋ฐ์š”, ํŠนํžˆ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ์™€ ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ์ž‘์—…์ด์—์š”. ์ด ๊ธ€์—์„œ๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์˜ ์ค‘์š”์„ฑ๊ณผ ๊ตฌ์ฒด์ ์ธ ๋ฐฉ๋ฒ•, ๊ทธ๋ฆฌ๊ณ  ์œ ์šฉํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ํˆด์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด ๋ณผ๊ฒŒ์š”!


๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ: ๋ชจ๋ธ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ด๋Š” ํ•ต์‹ฌ

๊ฒฐ์ธก์น˜๋Š” ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ˆ„๋ฝ๋œ ๊ฐ’์„ ๋งํ•ด์š”. ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์›์ธ์œผ๋กœ ๊ฒฐ์ธก์น˜๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋Š”๋ฐ์š”, ์˜ˆ๋ฅผ ๋“ค์–ด ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณผ์ •์—์„œ ๋ˆ„๋ฝ๋˜์—ˆ๊ฑฐ๋‚˜, ์„ผ์„œ๊ฐ€ ์˜ค์ž‘๋™ํ•ด์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ์†์‹ค๋œ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์ฃ . ๊ฒฐ์ธก์น˜๋ฅผ ์ œ๋Œ€๋กœ ์ฒ˜๋ฆฌํ•˜์ง€ ์•Š์œผ๋ฉด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๊ณ , ๊ฒฐ๊ณผ์˜ ์‹ ๋ขฐ์„ฑ์ด ๋‚ฎ์•„์งˆ ์ˆ˜ ์žˆ์–ด์š”.

1. ๊ฒฐ์ธก์น˜ ์‹๋ณ„

๋จผ์ € ๊ฒฐ์ธก์น˜๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์„ ์‚ดํŽด๋ณด๊ณ , ๊ฐ ์—ด์— ๊ฒฐ์ธก์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด ์ฒซ ๋‹จ๊ณ„๋ž๋‹ˆ๋‹ค. ํŒŒ์ด์ฌ์˜ Pandas ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ฐ„๋‹จํ•˜๊ฒŒ ๊ฒฐ์ธก์น˜๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์–ด์š”. ๐Ÿ˜ƒ

2. ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์–ด์š”. ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ• ๊ฒŒ์š”. ๐Ÿ˜Š

 

(1) ๊ฒฐ์ธก์น˜ ์ œ๊ฑฐ

๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋Š” ํ–‰์ด๋‚˜ ์—ด์„ ์•„์˜ˆ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋งŽ๊ณ , ๊ฒฐ์ธก์น˜๊ฐ€ ํŠน์ • ๋ถ€๋ถ„์— ๋ชฐ๋ ค ์žˆ์„ ๋•Œ ์œ ์šฉํ•ด์š”.

 

(2) ๊ฒฐ์ธก์น˜ ๋Œ€์ฒด (Imputation)

๊ฒฐ์ธก์น˜๋ฅผ ํŠน์ • ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์žˆ์–ด์š”. ํ‰๊ท ๊ฐ’, ์ค‘์•™๊ฐ’, ์ตœ๋นˆ๊ฐ’ ๋“ฑ์œผ๋กœ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด ๋ฐฉ๋ฒ•์€ ๋ฐ์ดํ„ฐ์˜ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ ๊ฒฐ์ธก์น˜๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ์ข‹๋‹ต๋‹ˆ๋‹ค.

 

(3) ์˜ˆ์ธก ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ๋Œ€์ฒด

๊ณ ๊ธ‰ ๊ธฐ๋ฒ•์œผ๋กœ, ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค์„ ์ด์šฉํ•ด ๊ฒฐ์ธก์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ๋ณต์žกํ•˜์ง€๋งŒ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์–ด์š”. ๐Ÿ˜ฎ


๋ฐ์ดํ„ฐ ์ •๊ทœํ™”: ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ท ํ˜• ๋งž์ถ”๊ธฐ

๋ฐ์ดํ„ฐ ์ •๊ทœํ™”๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ผ์ •ํ•œ ๋ฒ”์œ„๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์„ ๋งํ•ด์š”. ์ •๊ทœํ™”๋Š” ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ท ํ˜•์„ ๋งž์ถ”๊ณ , ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ์—ญํ• ์„ ํ•ด์š”. ํŠนํžˆ, ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‚˜ ์‹ ๊ฒฝ๋ง์—์„œ๋Š” ์ •๊ทœํ™”๊ฐ€ ํ•„์ˆ˜์ ์ด๋ž๋‹ˆ๋‹ค.

1. ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”์˜ ํ•„์š”์„ฑ

์ •๊ทœํ™”๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ด์œ ๋กœ ์ค‘์š”ํ•ด์š”:

  • ๋ชจ๋ธ ํ•™์Šต ์•ˆ์ •์„ฑ: ๋ฐ์ดํ„ฐ ๊ฐ’์ด ๋„ˆ๋ฌด ์ฐจ์ด๊ฐ€ ๋‚˜๋ฉด ๋ชจ๋ธ์ด ํŠน์ • ๋ณ€์ˆ˜์— ๋ฏผ๊ฐํ•ด์งˆ ์ˆ˜ ์žˆ์–ด์š”. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ๋ฒ”์œ„๋ฅผ ์กฐ์ •ํ•œ๋‹ต๋‹ˆ๋‹ค.
  • ์†๋„ ํ–ฅ์ƒ: ์ •๊ทœํ™”๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํ•™์Šต ์†๋„๋ฅผ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์–ด์š”. ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋” ๋นจ๋ฆฌ ํ•™์Šตํ•˜๊ณ  ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์ฃ .
  • ์ตœ์ ํ™”์˜ ์šฉ์ด์„ฑ: ์ •๊ทœํ™”๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์˜ ์ตœ์ ํ™” ๊ณผ์ •์„ ๋” ์‰ฝ๊ฒŒ ๋งŒ๋“ค์–ด์ค˜์š”. ์ตœ์ ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ฐพ๋Š” ๋ฐ๋„ ๋„์›€์ด ๋œ๋‹ต๋‹ˆ๋‹ค.

2. ์ •๊ทœํ™” ๋ฐฉ๋ฒ•

์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ• ๊ฒŒ์š”. 

(1) ์ตœ์†Œ-์ตœ๋Œ€ ์ •๊ทœํ™” (Min-Max Scaling)

๋ฐ์ดํ„ฐ๋ฅผ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ๋ฐ์ดํ„ฐ์˜ ์ตœ์†Œ๊ฐ’์€ 0, ์ตœ๋Œ€๊ฐ’์€ 1๋กœ ๋ณ€ํ™˜๋ผ์š”.

 

(2) ํ‘œ์ค€ํ™” (Standardization)

๋ฐ์ดํ„ฐ๋ฅผ ํ‰๊ท ์ด 0, ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ด ๋˜๋„๋ก ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅผ ๋•Œ ํšจ๊ณผ์ ์ด๋ž๋‹ˆ๋‹ค.

 

(3) ๋กœ๊ทธ ๋ณ€ํ™˜ (Log Transformation)

๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊น๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ํŠนํžˆ ๊ฐ’์˜ ์ฐจ์ด๊ฐ€ ํฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์œ ์šฉํ•˜๋‹ต๋‹ˆ๋‹ค ๐Ÿ˜Š


๊ด€๋ จ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ํˆด

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋ฅผ ๋”์šฑ ํšจ๊ณผ์ ์œผ๋กœ ํ•˜๊ธฐ ์œ„ํ•ด ์•Œ์•„๋‘๋ฉด ์ข‹์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์™€ ํˆด์„ ์†Œ๊ฐœํ• ๊ฒŒ์š”.

1. Pandas

Pandas๋Š” ๋ฐ์ดํ„ฐ ์กฐ์ž‘๊ณผ ๋ถ„์„์— ํ•„์ˆ˜์ ์ธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ˆ์š”. ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•˜๋ฉฐ, ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ๋‚˜ ๋ฐ์ดํ„ฐ ๋ณ€ํ™˜์— ๋งค์šฐ ์œ ์šฉํ•˜๋‹ต๋‹ˆ๋‹ค.

  • ๊ฐ•์ : ๋ฐ์ดํ„ฐ ์กฐ์ž‘์˜ ์šฉ์ด์„ฑ, ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ ์ œ๊ณต
  • ํ•™์Šต ์ž๋ฃŒ: Pandas ๊ณต์‹ ๋ฌธ์„œ

2. NumPy

NumPy๋Š” ๋Œ€๊ทœ๋ชจ ๋‹ค์ฐจ์› ๋ฐฐ์—ด๊ณผ ํ–‰๋ ฌ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ˆ์š”. ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋ฉฐ, ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”์™€ ๊ฐ™์€ ์ˆ˜ํ•™์  ์—ฐ์‚ฐ์„ ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์–ด์š”.

  • ๊ฐ•์ : ๋น ๋ฅธ ์—ฐ์‚ฐ ์†๋„, ๋‹ค์–‘ํ•œ ์ˆ˜ํ•™์  ๊ธฐ๋Šฅ
  • ํ•™์Šต ์ž๋ฃŒ: NumPy ๊ณต์‹ ๋ฌธ์„œ

3. Scikit-learn

Scikit-learn์€ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ด์š”. ๊ฒฐ์ธก์น˜ ๋Œ€์ฒด, ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”, ๋ฐ์ดํ„ฐ ๋ถ„ํ•  ๋“ฑ ๋‹ค์–‘ํ•œ ์ „์ฒ˜๋ฆฌ ์ž‘์—…์„ ์‰ฝ๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.

  • ๊ฐ•์ : ๊ด‘๋ฒ”์œ„ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋„๊ตฌ ์ œ๊ณต, ์‚ฌ์šฉ์˜ ์šฉ์ด์„ฑ
  • ํ•™์Šต ์ž๋ฃŒ: Scikit-learn ๊ณต์‹ ๋ฌธ์„œ

4. Dask

Dask๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ˆ์š”. ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์–ด, ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ์‹œ ๋งค์šฐ ์œ ์šฉํ•˜๋‹ต๋‹ˆ๋‹ค.

  • ๊ฐ•์ : ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ธฐ๋Šฅ
  • ํ•™์Šต ์ž๋ฃŒ: Dask ๊ณต์‹ ๋ฌธ์„œ

5. Feature-engine

Feature-engine์€ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ, ์Šค์ผ€์ผ๋ง, ์ธ์ฝ”๋”ฉ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ด์š”. Scikit-learn๊ณผ์˜ ํ†ตํ•ฉ์ด ์šฉ์ดํ•ด, ๋จธ์‹ ๋Ÿฌ๋‹ ํŒŒ์ดํ”„๋ผ์ธ์— ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค.


๊ฒฐ๋ก 

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ๋Š” AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ์ค‘์š”ํ•œ ๋‹จ๊ณ„์—์š”. ํŠนํžˆ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ์™€ ๋ฐ์ดํ„ฐ ์ •๊ทœํ™”๋Š” ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ๋†’์ด๊ณ , ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค€๋‹ต๋‹ˆ๋‹ค. ์˜ค๋Š˜ ์†Œ๊ฐœํ•œ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ์—ฌ๋Ÿฌ๋ถ„๋„ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ •์ œํ•˜๊ณ , ๋” ๋‚˜์€ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ๋ณด์„ธ์š” ๐Ÿ˜Š

๋ฐ˜์‘ํ˜•