[NLP] TF-IDF ์„ค๋ช… | ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ํ†ต๊ณ„์  ๊ฐ€์ค‘์น˜ ๊ณ„์‚ฐ | ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ ๋‚ด์—์„œ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€
ยท
๐Ÿ“– Fundamentals/NLP
TF-IDF(Term Frequency-Inverse Document Frequency) TF-IDF๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์ •๋ณด ๊ฒ€์ƒ‰ ๋ฐ ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ํ†ต๊ณ„์ ์ธ ๊ฐ€์ค‘์น˜ ์ฒ™๋„์ด๋‹ค. TF-IDF๋Š” ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ ๋‚ด์—์„œ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋ฉฐ, ๊ฒ€์ƒ‰ ์—”์ง„, ๋ฌธ์„œ ๋ถ„๋ฅ˜, ์ •๋ณด ๊ฒ€์ƒ‰, ํ…์ŠคํŠธ ์š”์•ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ํ™œ์šฉ๋œ๋‹ค. TF-IDF๋Š” ๋‹ค์Œ ๋‘ ์š”์†Œ(TF, IDF)์˜ ๊ณฑ์œผ๋กœ ๊ณ„์‚ฐ๋˜๋Š”๋ฐ, 1. TF (Term Frequency, ๋‹จ์–ด ๋นˆ๋„) ํŠน์ • ๋ฌธ์„œ ๋‚ด์—์„œ ํŠน์ • ๋‹จ์–ด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋‚˜ํƒ€๋‚˜๋Š”์ง€๋ฅผ ์ธก์ •. ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฌธ์„œ ๋‚ด์—์„œ ์ž์ฃผ ๋‚˜ํƒ€๋‚˜๋Š” ๋‹จ์–ด์ผ์ˆ˜๋ก ํ•ด๋‹น ๋‹จ์–ด์˜ TF ๊ฐ’์€ ๋†’์œผ๋ฉฐ, TF๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋œ๋‹ค. TF(w) = (ํŠน์ • ๋‹จ์–ด w์˜ ๋ฌธ์„œ ๋‚ด ๋“ฑ์žฅ ..
[NLP] Word2Vec ์„ค๋ช… | word2vec ๊ด€๋ จ ๊นƒํ—™ ๋ ˆํฌ์ง€ํ† ๋ฆฌ
ยท
๐Ÿ“– Fundamentals/NLP
Word2Vec Word2Vec์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐ ํ…์ŠคํŠธ ๋ถ„์„ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ ๊ธฐ์ˆ ์ด๋‹ค. ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์€ ๋‹จ์–ด๋ฅผ ๊ณ ์ฐจ์› ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ธฐ์ˆ ๋กœ, ์ด๋Ÿฌํ•œ ๋ฒกํ„ฐ๋Š” ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ์บก์ฒ˜ํ•˜๊ณ  ์ˆ˜ํ•™์  ์—ฐ์‚ฐ์„ ํ†ตํ•ด ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ ์ปดํ“จํ„ฐ์— ์ €์žฅ๋˜๋Š” ํ˜•ํƒœ ์ž์ฒด๊ฐ€ 0~255์˜ RGB ๊ฐ’์œผ๋กœ ์ €์žฅ๋˜๊ธฐ์— ์ด ๊ฐ’์„ ๊ทธ๋Œ€๋กœ CNN, Transformer ๋“ฑ์˜ ๋”ฅ๋Ÿฌ๋‹ ์•„ํ‚คํ…์ฒ˜์— ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋‹จ์–ด์˜ ๊ฒฝ์šฐ ์ž„๋ฒ ๋”ฉํ•˜๋Š” ๊ณผ์ •์ด ๋ณ„๋„๋กœ ํ•„์š”ํ•˜๋‹ค. Word2Vec์€ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ์•„ํ‚คํ…์ฒ˜์ธ CBOW(Continuous Bag of Words)์™€ Skip-gram์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ด ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ..