์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ: SVM, Decision Tree, Random Forest, Gradient Boosting
์ค๋์ ๋จธ์ ๋ฌ๋์์ ์ ํต์ ์ด๊ณ ๊ธฐ๋ณธ์ด ๋๋ ๋ค ๊ฐ์ง ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ ์ ์ผ๋ก ์ดํด๋ณผ ๊ฑฐ์์.
SVM(Support Vector Machine), Decision Tree, Random Forest, Gradient Boosting์ ๊ฐ๊ฐ ๋ ํนํ ํน์ง๊ณผ ๊ฐ๋ ฅํ ์์ธก ์ฑ๋ฅ์ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๋จธ์ ๋ฌ๋์ ๊ธฐ์ด๋ฅผ ์ด๋ฃจ๋ ์ค์ํ ๋ชจ๋ธ๋ค์ ๋๋ค.
1. SVM (Support Vector Machine)
1.1. ๊ฐ๋
SVM์ ์ฃผ์ด์ง ๋ฐ์ดํฐ์์ ๋ ํด๋์ค๋ฅผ ๊ฐ์ฅ ์ ๊ตฌ๋ถํ๋ ๊ฒฝ๊ณ(Decision Boundary)๋ฅผ ์ฐพ๋ ๋ฐ ์ด์ ์ด ์์ด์.
์ด ๊ฒฝ๊ณ๋ฅผ Hyperplane์ด๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ, ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๋ ์ ๋๋ ๋ฉด์ ์๋ฏธํฉ๋๋ค. SVM์ ํต์ฌ์ ์ด Hyperplane๊ณผ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋ ๋ง์ง์ ์ต๋ํ์ผ๋ก ๋ํ๋ ๊ฒ์
๋๋ค.
๋ง์ง์ ๋ํ๋ค๋ ๊ฒ์ ์ดํ๋ฉด ๊ทผ์ฒ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค๊ณผ ๊ฑฐ๋ฆฌ๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ์๋ฏธํด์. ์ด๋ ๊ฒ ํ๋ฉด ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ฃผ์ด์ก์ ๋ ์ผ๋ฐํ(generalization) ๋ฅ๋ ฅ์ด ์ข์์ ธ ๋ ์ ํํ ์์ธก์ ํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ด ๊ณผ์ ์์ ์ค์ํ ์ญํ ์ ํ๋ ๊ฒ์ด ๋ฐ๋ก Support Vector์ธ๋ฐ์, ์ด๋ Hyperplane์ ๊ฐ์ฅ ๊ฐ๊น์ด ์์นํ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค๋ก, Hyperplane์ ์์น์ ๋ฐฉํฅ์ ๊ฒฐ์ ์ง๋ ๋ฐ ์ฌ์ฉ๋ผ์. Support Vector๊ฐ ์ ์ค์ํ ๊น์? Hyperplane์ ์ ์ํ ๋ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ์๋๋ผ, ์ด ์ค์ํ ๋ช ๊ฐ์ ๋ฐ์ดํฐ๋ง ์ฐธ๊ณ ํ๊ธฐ ๋๋ฌธ์ด์์.
๋น์ ํ ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ ๊น?
Kernel Trick(์ปค๋ ๊ธฐ๋ฒ)์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ ๋์ ์ฐจ์์ผ๋ก ๋ณํํด ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ ์ผ๋ก ๊ตฌ๋ถํ ์ ์๊ฒ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ด์ฐจ์์์ ์ํ์ผ๋ก ์ฝํ ๋ฐ์ดํฐ๋ฅผ ์ผ์ฐจ์์ผ๋ก ๋งคํํ๋ฉด ์ง์ ์ผ๋ก ์ฝ๊ฒ ๊ตฌ๋ถํ ์ ์๊ฒ ๋๋ ์๋ฆฌ์ ๋๋ค. ์์ฃผ ์ฌ์ฉํ๋ ์ปค๋์๋ Linear, Polynomial, RBF(Radial Basis Function) ๋ฑ์ด ์์ด์.
1.2. ํน์ง
๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๊ฐํจ
SVM์ ๋ฐ์ดํฐ์ Feature(ํน์ง) ์๊ฐ ๋ง์์๋ก ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํด์. ์๋ฅผ ๋ค์ด, ํ ์คํธ ๋ถ๋ฅ ๋ฌธ์ ์์ ์์ฒ ๊ฐ์ ๋จ์ด Feature๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
์ ์ ๋ฐ์ดํฐ ์ํ์์๋ ํจ๊ณผ์
๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ด๊ฑฐ๋ ์ํ ์๊ฐ ์ ์ ๊ฒฝ์ฐ์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์๋ฅผ ๋ค์ด, ์๋ฃ ๋ฐ์ดํฐ์ฒ๋ผ ๋ฐ์ดํฐ ์์ง์ด ์ด๋ ค์ด ํ๊ฒฝ์์๋ ์ ์ฉํ๊ฒ ํ์ฉ๋ฉ๋๋ค.
๋ฐ์ด๋ ์ผ๋ฐํ ์ฑ๋ฅ
SVM์ Hyperplane๊ณผ ๋ฐ์ดํฐ ์ฌ์ด์ ์ฌ๋ฐฑ(Margin)์ ์ต๋๋ก ํ๋ณดํ๋ ๊ตฌ์กฐ ๋๋ถ์, ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก ์ ํ๋๊ฐ ๋งค์ฐ ๋์ต๋๋ค.
์ปค๋ ๊ธฐ๋ฒ์ผ๋ก ๋น์ ํ ๋ฌธ์ ํด๊ฒฐ ๊ฐ๋ฅ
์ ํ์ ์ผ๋ก ๋๋์ง ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด SVM์ ์ปค๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์์ผ๋ก ๋ณํํฉ๋๋ค. ์ฃผ์ ์ปค๋๋ก๋ RBF(Radial Basis Function), Polynomial, Linear ๋ฑ์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฐ์ดํฐ ํํ๋ฅผ ์ ์ฐํ๊ฒ ๋ค๋ฃฐ ์ ์์ด์.
์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
์คํธ ๋ฉ์ผ ๋ถ๋ฅ, ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด ์ ๋ฌด ํ๋ณ๊ณผ ๊ฐ์ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ํนํ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
๋จ์ : ๋๊ท๋ชจ ๋ฐ์ดํฐ์์ ์๋ ์ ํ
SVM์ ๋ฐ์ดํฐ ์ํ ์๊ฐ ๋ง๊ฑฐ๋ Feature๊ฐ ์ง๋์น๊ฒ ๋ง์์ง ๊ฒฝ์ฐ ์ฐ์ฐ ๋น์ฉ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํด ํ์ต ์๋๊ฐ ๋๋ ค์ง ์ ์์ต๋๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ์ค์
SVM์ ์ฑ๋ฅ์ C(์ฌ๋ฐฑ์ ๋ํ ํจ๋ํฐ)์ ์ปค๋ ์ ํ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ํฐ ์ํฅ์ ๋ฐ์ต๋๋ค. ์ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํ์ง๋ง, ์ด๋ ์๊ฐ์ด ๋ง์ด ์์๋ ์ ์์ต๋๋ค.
SVM์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ์ ํ๋ ๋ฐ์ดํฐ ํ๊ฒฝ์์ ํนํ ์ ์ฉํ๋ฉฐ, ๋ค์ํ ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ํ์ง๋ง ๋๊ท๋ชจ ๋ฐ์ดํฐ์์๋ ์๋์ ์ฐ์ฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๐
2. Decision Tree
2.1. ๊ฐ๋
Decision Tree๋ ํธ๋ฆฌ(tree) ๊ตฌ์กฐ๋ฅผ ํ์ฉํด ์์ฌ ๊ฒฐ์ ์ ์ํํ๋ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด์์. ์ด ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ๋จ๊ณ๋ก ๋ถํ ํ๋ฉฐ ์ต์ข ์ ์ผ๋ก ์์ธก๊ฐ์ ์ ๊ณตํฉ๋๋ค. ๊ฐ ๋ถ๊ธฐ์ (Node)์ ํน์ ์ง๋ฌธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๊ณ , ๋ฆฌํ ๋ ธ๋(Leaf Node)์์ ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
์๋ ๋ฐฉ์์ ์ดํด๋ณด๋ฉด, Decision Tree๋ ๋ฐ์ดํฐ์ ํน์ง(feature)์ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ "์ ์ฉํ" ํน์ง์ ์ ํํด ๋ฐ์ดํฐ๋ฅผ ๋๋๋๋ฐ์, ์ด๋ ์ ์ฉ์ฑ์ ํ๋จํ๋ ๊ธฐ์ค์ผ๋ก Gini Impurity(์ง๋ ๋ถ์๋) ๋๋ Entropy(์ํธ๋กํผ) ๊ฐ์ ๊ฐ์ ์ฌ์ฉํด์.
- ์ฒซ ๋ฒ์งธ ์ง๋ฌธ: "๊ณ ๊ฐ์ ๋์ด๋ 30๋ ์ด์์ธ๊ฐ์?"
- ๋ ๋ฒ์งธ ์ง๋ฌธ: "๊ตฌ๋งค ๊ธ์ก์ 10๋ง ์ ์ด์์ธ๊ฐ์?"
- ๋ง์ง๋ง ์ง๋ฌธ: "์ต๊ทผ ๊ตฌ๋งค ์ด๋ ฅ์ด ์๋์?"
์ด๋ฐ ๋ฐฉ์์ผ๋ก ์ง๋ฌธ์ ๋ฐ๋ณตํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ์ขํ ๋๊ฐ๋๋ค.
์ค์ ๊ฐ๋
- Gini Impurity์ Entropy
- Gini Impurity๋ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ํผํฉ๋์ด ์๋์ง๋ฅผ ์ธก์ ํ๋ฉฐ, ๋ฎ์์๋ก ํ์ชฝ ํด๋์ค๊ฐ ์ฐ์ธํ๋ค๋ ๊ฒ์ ์๋ฏธํด์.
- Entropy๋ ๋ฐ์ดํฐ์ ๋ถํ์ค์ฑ์ ์ธก์ ํ๋ฉฐ, Decision Tree๋ ์ํธ๋กํผ๋ฅผ ์ต์ํํ๋๋ก ํ์ตํฉ๋๋ค.
- Tree Depth(ํธ๋ฆฌ ๊น์ด)
- ํธ๋ฆฌ์ ๊น์ด๊ฐ ๋๋ฌด ๊น์ผ๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ์ง๋์น๊ฒ ์ธ๋ฐํ๊ฒ ํ์ตํด ๊ณผ์ ํฉ(overfitting)์ด ๋ฐ์ํ ์ ์์ด์. ๋ฐ๋๋ก ํธ๋ฆฌ๊ฐ ๋๋ฌด ์์ผ๋ฉด ๋ฐ์ดํฐ์ ํจํด์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํด ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ฃ .
- ์ ์ ํ ํธ๋ฆฌ ๊น์ด๋ ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ณต์ก์ฑ์ ๋ฐ๋ผ ๊ฒฐ์ ๋ผ์.
2.2. ํน์ง
๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ๋น ๋ฅด๊ฒ ๋ถ์ ๊ฐ๋ฅ
Decision Tree๋ ์ง๊ด์ ์ธ ํธ๋ฆฌ ๊ตฌ์กฐ ๋๋ถ์ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ดํดํ๊ณ ๋ถ์ํ ์ ์์ด์. ์๊ฐํ๊ฐ ์ฌ์ ๋ฐ์ดํฐ์ ๋ถํ ๊ธฐ์ค๊ณผ ๊ฒฐ๊ณผ๋ฅผ ๋ช ํํ ํ์ ํ ์ ์์ต๋๋ค.
๋ถ๋ฅ(Classification)์ ํ๊ท(Regression) ๋ชจ๋์ ํ์ฉ ๊ฐ๋ฅ
๋ถ๋ฅ ๋ฌธ์ (์: ๊ณ ๊ฐ์ ๋์ถ ์น์ธ ์ฌ๋ถ)์ ํ๊ท ๋ฌธ์ (์: ์ฃผํ ๊ฐ๊ฒฉ ์์ธก) ๋ชจ๋์์ ์ฌ์ฉํ ์ ์๋ ์ ์ฐํ ์๊ณ ๋ฆฌ์ฆ์ด์์.
๊ฒฐ์ธก๊ฐ์ด๋ ์ ์ฒ๋ฆฌ๊ฐ ๋ถ์กฑํ ๋ฐ์ดํฐ์ ์ ์ฐ
๋ฐ์ดํฐ๊ฐ ๊ฒฐ์ธก๊ฐ์ ํฌํจํ๊ฑฐ๋, ์ค์ผ์ผ๋ง๊ณผ ๊ฐ์ ์ ์ฒ๋ฆฌ๊ฐ ์ถฉ๋ถํ ์ด๋ฃจ์ด์ง์ง ์์ ๊ฒฝ์ฐ์๋ ์ ์๋ํฉ๋๋ค. ์ด๋ฐ ์ ์์ ๋ณต์กํ ์ ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ด ์ด๊ธฐ ๋ฐ์ดํฐ ๋ถ์ ๋จ๊ณ์ ํนํ ์ ์ฉํด์.
ํด์ ๊ฐ๋ฅ์ฑ์ด ๋์
Decision Tree๋ ์๋ ๊ณผ์ ์ ์๊ฐ์ ์ผ๋ก ์ดํดํ๊ธฐ ์ฌ์์. ์๋ฅผ ๋ค์ด, "๊ณ ๊ฐ์ ์ ์ฉ ์ ์๊ฐ 700 ์ด์์ด๋ฉด ๋์ถ์ ์น์ธํ๋ค"๋ ์์ผ๋ก ๋ช ํํ๊ฒ ์ค๋ช ํ ์ ์์ต๋๋ค.
๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ํ์ต
๋จ์ผ Decision Tree๋ ํ์ต๊ณผ ์์ธก ์๋๊ฐ ๋น ๋ฅด๊ธฐ ๋๋ฌธ์, ์์ ๋ฐ์ดํฐ์ ์์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ด์.
๊ณผ์ ํฉ ๊ฐ๋ฅ์ฑ
ํธ๋ฆฌ๊ฐ ๋๋ฌด ๊น์ด์ง ๊ฒฝ์ฐ, ํ๋ จ ๋ฐ์ดํฐ์ ์ง๋์น๊ฒ ์ ํฉํด ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ต๋ ๊น์ด ์ ํ, ์ต์ ์ํ ๋ถํ ๊ฐ์ ๋ฑ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํด์ผ ํฉ๋๋ค.
Feature ์ค์๋ ๊ณ์ฐ ๊ฐ๋ฅ
Decision Tree๋ ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ๋ ๊ณผ์ ์์ ํน์ Feature(ํน์ง)๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๊ฐ์ค์น๋ก ๊ณ์ฐํด์ค๋๋ค. ์ด ์ ๋ณด๋ฅผ ํตํด Feature Selection(ํน์ง ์ ํ)์ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์์ด์.
3. Random Forest
3.1. ๊ฐ๋
Random Forest๋ ์ฌ๋ฌ ๊ฐ์ Decision Tree๋ฅผ ์กฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ ํฅ์์ํค๋ Ensemble Learning ๊ธฐ๋ฒ์ด์์. ๋จ์ผ Decision Tree๊ฐ ๊ฐ์ง ๋จ์ ์ ๋ณด์ํ๊ณ ์ ์ค๊ณ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์ฌ๋ฌ Decision Tree๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ต์ํค๊ณ , ์ด๋ค์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ํฉ์ฐ(๋ถ๋ฅ ๋ฌธ์ ๋ ๋ค์๊ฒฐ, ํ๊ท ๋ฌธ์ ๋ ํ๊ท )ํด ์ต์ข ์์ธก์ ๋ง๋ญ๋๋ค.
Random Forest๋ ์ด๋ฆ์์๋ ์ ์ ์๋ฏ์ด Randomness๊ฐ ํต์ฌ์ด์์.
- ๊ฐ Tree๋ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ์ํ(ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ Subset)๋ก ํ์ต๋ฉ๋๋ค. ์ด๋ฅผ Bagging(Bootstrap Aggregating)์ด๋ผ๊ณ ๋ถ๋ฌ์.
- ๊ฐ Tree๋ ๋ฐ์ดํฐ๋ฅผ ๋๋ ๋ ๋ชจ๋ Feature๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ , ๋ฌด์์๋ก ์ ํ๋ ์ผ๋ถ Feature๋ง ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ Feature Randomness๋ผ๊ณ ํด์.
์ด ๋ ๊ฐ์ง ๋ฌด์์์ฑ์ ํตํด Decision Tree๋ค์ด ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ๋ง๋ค์ด์ง๊ณ , ๊ฐ Tree์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ๋ฉด overfitting์ ๋ฐฉ์งํ๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ป์ ์ ์์ด์. ์๋ฅผ ๋ค์ด, ๋ง์ฝ ํ ํธ๋ฆฌ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์๋ชป ๋ถ๋ฅํ๋ค๋ฉด, ๋ค๋ฅธ ํธ๋ฆฌ๋ค์ ํด๋น ์ค์๋ฅผ ๋ณด์ํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๊ธฐ ๋๋ฌธ์ ์ ์ฒด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
3.2. ํน์ง
์ก์์ด ๋ง๊ฑฐ๋ ๋ณต์กํ ๋ฐ์ดํฐ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ
Random Forest๋ ๋ฐ์ดํฐ์ ์ ๋ ธ์ด์ฆ(์ก์)๊ฐ ๋ง๊ฑฐ๋ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๊ฒฝ์ฐ์๋ ์์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ฌ๋ฌ Decision Tree์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉ(์์๋ธ)ํ๊ธฐ ๋๋ฌธ์ ๋จ์ผ ๋ชจ๋ธ๋ณด๋ค ๋ ์ ํํ๊ณ ์ ๋ขฐ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ด์.
๊ฒฐ์ธก๊ฐ์ด ์๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ฐ๋ฅ
๋ฐ์ดํฐ์ ๊ฒฐ์ธก๊ฐ์ด ํฌํจ๋๊ฑฐ๋ ์ผ๋ถ ๊ฐ์ด ์์ค๋ ๊ฒฝ์ฐ์๋ Random Forest๋ ์ ์ฐํ๊ฒ ์๋ํฉ๋๋ค. ์ ์ฒ๋ฆฌ๊ฐ ๋ถ์กฑํ ๋ฐ์ดํฐ์์๋ ๋น๊ต์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ ์ด ํฐ ์ฅ์ ์ด์์.
Feature๊ฐ ๋ง์ ๋ฐ์ดํฐ์ ์ ์ ํฉ
Random Forest๋ ๊ฐ Decision Tree๋ฅผ ํ์ตํ ๋ ๋ฌด์์๋ก ์ ํ๋ Feature๋ง ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ ์ฉํฉ๋๋ค. ์ด๋ก ์ธํด Feature ์๊ฐ ๋ง์๋ ๊ณผ์ ํฉ(overfitting)์ ๋ฐฉ์งํ๋ฉด์ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์ด์.
๋ถ๋ฅ(Classification)์ ํ๊ท(Regression) ๋ฌธ์ ๋ชจ๋์์ ํ์ฉ ๊ฐ๋ฅ
Random Forest๋ ๋ฒ์ฃผ๋ฅผ ์์ธกํ๋ ๋ถ๋ฅ ๋ฌธ์ (์: ์ง๋ณ ์ ๋ฌด ํ๋ณ)์ ์ฐ์๊ฐ์ ์์ธกํ๋ ํ๊ท ๋ฌธ์ (์: ์ฃผํ ๊ฐ๊ฒฉ ์์ธก) ๋ชจ๋์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ์ด๋ก ์ธํด ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ฌธ์ ์ ํญ๋๊ฒ ํ์ฉํ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ด์์.
๋์ ์ ํ๋์ ์์ ์ฑ
Random Forest๋ ๋จ์ผ Decision Tree๋ณด๋ค ์์ธก ์ฑ๋ฅ์ด ๋ ๋ฐ์ด๋๋ฉฐ, ์ฌ๋ฌ Tree์ ์์ธก์ ํ๊ท ํํ๊ฑฐ๋ ๋ค์๊ฒฐ๋ก ๊ฒฐํฉํด ์์ ์ฑ์ ๋์ ๋๋ค. ํนํ ๋ฐ์ดํฐ๊ฐ ๋ณต์กํ๊ฑฐ๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์์๋ก ์ด ๊ฐ์ ์ด ๋๋๋ฌ์ ธ์.
๊ณผ์ ํฉ ๋ฐฉ์ง์ ํจ๊ณผ์
๊ฐ Tree๊ฐ ์๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ์ํ๊ณผ Feature๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์, ๊ฐ๋ณ Tree๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ณผ๋ํ๊ฒ ํ์ตํ๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค. ์ด๋ก ์ธํด Random Forest๋ ๊ณผ์ ํฉ์ ์ํ์ด ๋ฎ๊ณ , ์ผ๋ฐํ(generalization) ์ฑ๋ฅ์ด ๋ฐ์ด๋ฉ๋๋ค.
ํด์ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์
Random Forest๋ ์ฌ๋ฌ Tree์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ฏ๋ก, ๋จ์ผ Decision Tree์ ๋นํด ๋ชจ๋ธ์ด ๋ด๋ฆฐ ๊ฒฐ์ ๊ณผ์ ์ ํด์ํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ชจ๋ธ์ ๋ณต์ก์ฑ ๋๋ฌธ์ "์ด๋ค Feature๊ฐ ์ด๋ค ๊ธฐ์ค์ผ๋ก ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฏธ์ณค๋์ง"๋ฅผ ๋ช ํํ ์ค๋ช ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์ด์.
๋ค๋ง, Random Forest๋ ๋ง์ Tree๋ฅผ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ ๋น์ฉ์ด ๋น๊ต์ ๋์์ง ์ ์์ด์. ํ์ต ์๋๊ฐ ๋๋ ค์ง ์ ์์ผ๋ฏ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ GPU ๋ฑ์ ํ๋์จ์ด๋ฅผ ํ์ฉํ๋ ๊ฒ์ด ํ์ํ ์ ์์ต๋๋ค.
4. Gradient Boosting
4.1. ๊ฐ๋
Gradient Boosting์ Weak Learner๋ฅผ ์์ฐจ์ ์ผ๋ก ํ์ต์์ผ ์์ธก ์ฑ๋ฅ์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํ๋ ๊ฐ๋ ฅํ Ensemble Learning ๊ธฐ๋ฒ์ด์์. Gradient Boosting์ ํต์ฌ์ ์ด์ ํ์ต ๋ชจ๋ธ์ด ๋ง๋ ์ค์ฐจ(Residual Error)๋ฅผ ํ์ตํ๋ ์๋ก์ด ๋ชจ๋ธ์ ์ถ๊ฐํ๋ฉด์, ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฒด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์ ๋์ด๋ ๊ฒ์ ๋๋ค. Decision Tree๊ฐ ์ฝํ ํ์ต๊ธฐ๋ก ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ์ด๋ฅผ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํด๋๊ฐ๋ ๋ฐฉ์์ด์ฃ .
Gradient Boosting์ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ์ด ์๊ณ ๋ฆฌ์ฆ์ Gradient Descent์ ํ์ฉํด ํ์ต ๊ณผ์ ์์ Loss๋ฅผ ์ต์ํํ๋ ค๊ณ ํฉ๋๋ค.
- Loss Function์ ๋ชจ๋ธ์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ธก์ ํ๋ ๊ธฐ์ค์ด์์.
- Gradient Descent๋ ์์ค ํจ์๋ฅผ ์ต์ํํ๊ธฐ ์ํด ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ ์ง์ ์ผ๋ก ์ ๋ฐ์ดํธํ๋ ์ต์ ํ ๋ฐฉ๋ฒ์ ๋๋ค.
์ด ๊ณผ์ ์์ ๊ฐ๊ฐ์ ์ฝํ ํ์ต๊ธฐ๋ ์ด์ ๋ชจ๋ธ์ ์ค๋ฅ๋ฅผ ๋ณด์ํ๋ ค๊ณ ํ์ตํ๋ฉฐ, ์ด ๊ณผ์ ์ด ๋ฐ๋ณต๋ ์๋ก ์ ์ ๋ ๊ฐ๋ ฅํ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค์ด๋ ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฒซ ๋ฒ์งธ Tree๊ฐ ์๋ชป ๋ถ๋ฅํ ๋ฐ์ดํฐ์ ๋ ๋ง์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด ๋ ๋ฒ์งธ Tree๊ฐ ์ด๋ฅผ ํ์ตํ๊ฒ ํ๊ณ , ์ดํ ๋ชจ๋ธ์ด ๊ณ์ํด์ ๋ณด์ ์์ ์ ์งํํ๋ ๋ฐฉ์์ด์์.
4.2. ํน์ง
๋ณต์กํ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ
Gradient Boosting์ ๋ฐ์ดํฐ์ ํจํด์ด ๋ณต์กํ๊ณ Feature ๊ฐ ์ํธ์์ฉ์ด ์ค์ํ ๊ฒฝ์ฐ ํ์ํ ์์ธก ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธ์ต ๋ฐ์ดํฐ๋ ์๋ฃ ๋ฐ์ดํฐ์ฒ๋ผ ๋ณ์๊ฐ ๋ง๊ณ ์ํธ์์ฉ์ด ์ค์ํ ๋ฌธ์ ์์ ํจ๊ณผ์ ์ด์์.
๋์ ์ ํ๋๊ฐ ์๊ตฌ๋๋ ๋ฌธ์
Gradient Boosting์ ๋ง์ ๋จธ์ ๋ฌ๋ ๋ํ(Kaggle, DrivenData ๋ฑ)์์ ์ฐ์น ๋ชจ๋ธ๋ก ์์ฃผ ์ฌ์ฉ๋ฉ๋๋ค. ๋ํ์ฉ ๋ชจ๋ธ๋ง์์๋ ๊ฑฐ์ ๊ธฐ๋ณธ ์ต์ ์ผ๋ก ์ฌ์ฉ๋ ๋งํผ ๋์ ์์ธก ์ ํ๋๋ฅผ ์๋ํด์.
์๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ
Gradient Boosting์ ์ ์ ์์ ๋ฐ์ดํฐ๋ก๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ด์. ๋ฐ์ดํฐ๊ฐ ์ ํ์ ์ธ ํ๊ฒฝ์์๋ ๋์ ์ฑ๋ฅ์ ์ ์งํ ์ ์๋ ์ ์ด ํฐ ์ฅ์ ์ด์์.
๋์ ์์ธก ์ฑ๋ฅ
Gradient Boosting์ ์ฝํ ํ์ต๊ธฐ(Weak Learner)๋ค์ ์์ฐจ์ ์ผ๋ก ๊ฒฐํฉํ๋ฉด์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ด ๊ณผ์ ์์ ๋ฐ์ดํฐ์ ๋ณต์กํ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ ์ ์์ด์.
๋ถ๋ฅ(Classification)์ ํ๊ท(Regression) ๋ฌธ์ ๋ชจ๋์์ ํ์ฉ ๊ฐ๋ฅ
๋ถ๋ฅ ๋ฌธ์ (์: ์ง๋ณ ์ฌ๋ถ ์์ธก)์ ํ๊ท ๋ฌธ์ (์: ์ฃผํ ๊ฐ๊ฒฉ ์์ธก) ๋ชจ๋์์ ํ์ฉ๋๋ฉฐ, ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ฌธ์ ์ ์ ์ฉํ ์ ์๋ ์ ์ฐ์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
๊ณผ์ ํฉ ์ํ
Gradient Boosting์ ๋งค์ฐ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ด์ง๋ง, ํ์ต ๊ณผ์ ์์ ๋ฐ์ดํฐ์ ๊ณผ๋ํ๊ฒ ์ ํฉ(overfitting)๋ ๊ฐ๋ฅ์ฑ์ด ์์ด์. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ํธ๋ฆฌ์ ๊น์ด, ํ์ต๋ฅ (Learning Rate), ๋ถ์คํ ๋จ๊ณ ์์ ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ์คํ ์กฐ์ ํด์ผ ํฉ๋๋ค.
ํ์ต ์๋๊ฐ ๋๋ฆผ
Gradient Boosting์ ์์ฐจ์ ์ผ๋ก ํ์ตํ๋ ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ Random Forest์ ๋นํด ํ์ต ์๋๊ฐ ๋๋ฆฐ ํธ์ด์์. ํ์ง๋ง XGBoost, LightGBM, CatBoost์ ๊ฐ์ ๊ตฌํ์ฒด๋ฅผ ํ์ฉํ๋ฉด ์๋์ ์ฑ๋ฅ์ ๋์์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
5. ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ ๊ธฐ์ค
๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ ๋๋ ๋ฐ์ดํฐ์ ํน์ฑ๊ณผ ๋ชฉํ์ ๋ฐ๋ผ ๊ฐ์ฅ ์ ํฉํ ๋ชจ๋ธ์ ์ ํํ๋ ๊ฒ์ด ์ค์ํด์. ๋ค ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ(SVM, Decision Tree, Random Forest, Gradient Boosting)์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ฐ์ ๊ณผ ํน์ฑ์ ๊ฐ์ง๊ณ ์์ด์ ์ํฉ์ ๋ง๊ฒ ํ์ฉํ ์ ์์ด์. ์๋๋ ์ฃผ์ ์ ํ ๊ธฐ์ค์ ๋๋ค.
SVM (Support Vector Machine)์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ์ํ ํฌ๊ธฐ๊ฐ ์ ์ ์ํฉ์์ ์ ํฉํ ์๊ณ ๋ฆฌ์ฆ์ด์์. ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, ์ปค๋ ๊ธฐ๋ฒ์ ํตํด ๋น์ ํ ๋ฌธ์ ๋ ํด๊ฒฐํ ์ ์๋ ์ ์ฐ์ฑ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ํนํ ํ ์คํธ ๋ถ๋ฅ๋ ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๊ฐ์ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ํ์ง๋ง ๋ฐ์ดํฐ ์ํ์ด ๋ง๊ฑฐ๋ Feature ์๊ฐ ์ง๋์น๊ฒ ๋ง์์ง๋ฉด ํ์ต ์๋๊ฐ ๋๋ ค์ง๊ณ , ํ์ดํผํ๋ผ๋ฏธํฐ(C์ ์ปค๋ ์ ํ) ํ๋์ ๋ฏผ๊ฐํ๋ค๋ ์ ์ ํ๊ณ๋ก ์์ฉํ ์ ์์ด์.
Decision Tree๋ ๋จ์ํ๊ณ ํด์ ๊ฐ๋ฅํ ๋ชจ๋ธ์ด ํ์ํ ๊ฒฝ์ฐ์ ์ ํฉํฉ๋๋ค. ํธ๋ฆฌ ๊ตฌ์กฐ ๋๋ถ์ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ๋ถ์ํ๊ณ , ์๊ฐํํ์ฌ ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋ ์ ์ด ํฐ ์ฅ์ ์ด์์. ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ๋ชจ๋์์ ํ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ๊ฒฐ์ธก๊ฐ์ด ํฌํจ๋ ๋ฐ์ดํฐ์์๋ ์ ์๋ํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋จ๋ ์ผ๋ก ์ฌ์ฉํ ๊ฒฝ์ฐ ํธ๋ฆฌ๊ฐ ๋๋ฌด ๊น์ด์ง ์ ์์ด ๊ณผ์ ํฉ ์ํ์ด ์๊ณ , ์ฑ๋ฅ์ด ์ ํ์ ์ด๋ผ๋ ์ ์ ์ผ๋์ ๋์ด์ผ ํฉ๋๋ค.
Random Forest๋ ์์ ์ ์ด๊ณ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ํ ๋ ์ ํํ๊ธฐ ์ข์ ์๊ณ ๋ฆฌ์ฆ์ด์์. ์ฌ๋ฌ Decision Tree๋ฅผ ๊ฒฐํฉํด ๋ ธ์ด์ฆ์ ๋ณต์กํ ๋ฐ์ดํฐ์ ๊ฐํ๋ฉฐ, ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ฉด์๋ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ํ ๊ฒฐ์ธก๊ฐ์ด ์๊ฑฐ๋ Feature๊ฐ ๋ง์ ๋ฐ์ดํฐ์์๋ ์ ์๋ํฉ๋๋ค. ๋ค๋ง, ์ฌ๋ฌ Tree๋ฅผ ์กฐํฉํ๋ ๊ณผ์ ์์ ํ์ต ์๋๊ฐ ๋๋ฆฌ๊ณ , ๋ชจ๋ธ์ด ๋ด๋ฆฐ ๊ฒฐ์ ์ ํด์ํ๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ์ด ์์ด์.
Gradient Boosting์ ๋ฐ์ดํฐ๊ฐ ๋ณต์กํ๊ฑฐ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ด ํ์ํ ๋ ์ ํํ๊ธฐ ์ ํฉํฉ๋๋ค. ์ฝํ ํ์ต๊ธฐ๋ค์ ์์ฐจ์ ์ผ๋ก ํ์ตํ์ฌ ๋์ ์์ธก ์ฑ๋ฅ์ ์ ๊ณตํ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ณต์กํ ํจํด์ ์ ํฌ์ฐฉํ๋ ๊ฐ์ ์ ๊ฐ์ง๊ณ ์์ด์. ํนํ ๋จธ์ ๋ฌ๋ ๋ํ(Kaggle ๋ฑ)์์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ชจ๋ธ๋ก, ๋ถ๋ฅ์ ํ๊ท ๋ฌธ์ ๋ชจ๋์์ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ํ์ง๋ง ํ์ต ์๋๊ฐ ๋๋ฆฌ๊ณ , ๊ณผ์ ํฉ์ ์ํ์ด ์์ผ๋ฏ๋ก ์ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์์ ์ ๋๋ค.
๐ก ํ: ์ด๋ค ์๊ณ ๋ฆฌ์ฆ์ ์กฐํฉํด์ผ ํ ๊น์?
์ค๋ฌด์์๋ ํ ๊ฐ์ง ์๊ณ ๋ฆฌ์ฆ๋ง ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค๋ ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ์กฐํฉํ๊ฑฐ๋ Ensemble ๊ธฐ๋ฒ์ ํ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์:
- Random Forest์ Gradient Boosting: ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์์ ์ ์ด๊ณ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋ฏ๋ก, ๋ณต์กํ ๋ฌธ์ ์ ์์ฃผ ์ฌ์ฉ๋ผ์.
- SVM๊ณผ Decision Tree์ ์กฐํฉ: ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๋ ์ด๊ธฐ ๋จ๊ณ์์๋ Decision Tree๋ก ๋น ๋ฅด๊ฒ ์ธ์ฌ์ดํธ๋ฅผ ์ป๊ณ , ์ต์ ์ ์ฑ๋ฅ์ ๋ชฉํ๋ก SVM์ด๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ์๋ํ๋ ๋ฐฉ์์ผ๋ก ํ์ฉํ ์ ์์ด์.
- ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์: ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฐ๋ผ, ๋ถ๋ฅ ๋ฌธ์ ์ SVM์ ์ฌ์ฉํ๊ณ , ํ๊ท ๋ฌธ์ ์ Gradient Boosting์ ์ฌ์ฉํ๋ ์์ผ๋ก ์๊ณ ๋ฆฌ์ฆ์ ํผํฉํด ์ฌ์ฉํ ์๋ ์์ด์.
์ต๊ทผ์ LLM, Foundation Model ๋ฑ์ ๊ธฐ์ ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ง๋ง, SVM, Decision Tree, Random Forest, Gradient Boosting๊ณผ ๊ฐ์ ์ ํต์ ์ธ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ ํ ์ค๋ฌด์์ ์ค์ํ ์ญํ ์ ํ๊ณ ์์ด์. ํนํ, ์ด ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ฐ์ดํฐ์ ํฌ๊ธฐ์ ๋ณต์ก์ฑ, ๋ฌธ์ ์ ํน์ฑ์ ๋ฐ๋ผ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ์ค์ฉ์ ์ธ ๋ฌธ์ ํด๊ฒฐ์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๋ํ, ์ด ์๊ณ ๋ฆฌ์ฆ๋ค์ ํ๋ ๋จธ์ ๋ฌ๋ ์์ฉ ๊ธฐ๋ฒ์ ํต์ฌ ์์ด๋์ด๋ฅผ ์ดํดํ๋ ๋ฐ๋ ์ค์ํ ์ถ๋ฐ์ ์ด์์. ์๋ฅผ ๋ค์ด, Gradient Boosting์ LightGBM, XGBoost, CatBoost์ ๊ฐ์ ๊ณ ์ํ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก ๋ฐ์ ํ๊ณ , Random Forest๋ ๋๋ค์ฑ(randomness)์ ํ์ฉํ ๋ค์ํ Ensemble ๊ธฐ๋ฒ์ ๊ธฐ๋ฐ์ด ๋์์ฃ .
๊ฒฐ๊ตญ, ๋จธ์ ๋ฌ๋์์ ์ค์ํ ๊ฒ์ ์ต์ ๊ธฐ์ ๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ์ ๋ฅผ ์ ๋๋ก ์ดํดํ๊ณ ๊ทธ์ ์ ํฉํ ๋๊ตฌ๋ฅผ ์ ํํ๋ ๋ฅ๋ ฅ์ด์์. ์ ํต์ ์ธ ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ๋์ ์ธ ๊ธฐ๋ฒ์ ํจ๊ป ํ์ฉํ๋ฉด ์ค๋ฌด์์ ๋ ๊ฐ๋ ฅํ ์๋ฃจ์ ์ ๋ง๋ค ์ ์์ ๊ฑฐ์์๐