TF-IDF(Term Frequency-Inverse Document Frequency)
TF-IDF๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋ณด ๊ฒ์ ๋ฐ ํ ์คํธ ๋ง์ด๋ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํต๊ณ์ ์ธ ๊ฐ์ค์น ์ฒ๋์ด๋ค. TF-IDF๋ ํน์ ๋จ์ด๊ฐ ๋ฌธ์ ๋ด์์ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ์ธก์ ํ๋ ๋ฐ ์ฌ์ฉ๋๋ฉฐ, ๊ฒ์ ์์ง, ๋ฌธ์ ๋ถ๋ฅ, ์ ๋ณด ๊ฒ์, ํ ์คํธ ์์ฝ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ํ์ฉ๋๋ค.
TF-IDF๋ ๋ค์ ๋ ์์(TF, IDF)์ ๊ณฑ์ผ๋ก ๊ณ์ฐ๋๋๋ฐ,
1. TF (Term Frequency, ๋จ์ด ๋น๋)
ํน์ ๋ฌธ์ ๋ด์์ ํน์ ๋จ์ด๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ํ๋๋์ง๋ฅผ ์ธก์ . ์ผ๋ฐ์ ์ผ๋ก ๋ฌธ์ ๋ด์์ ์์ฃผ ๋ํ๋๋ ๋จ์ด์ผ์๋ก ํด๋น ๋จ์ด์ TF ๊ฐ์ ๋์ผ๋ฉฐ, TF๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
TF(w) = (ํน์ ๋จ์ด w์ ๋ฌธ์ ๋ด ๋ฑ์ฅ ํ์) / (ํด๋น ๋ฌธ์ ๋ด ์ด ๋จ์ด ์)
2. IDF (Inverse Document Frequency, ์ญ๋ฌธ์ ๋น๋)
ํน์ ๋จ์ด๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ ๋ฌธ์์์ ์์ฃผ ๋ํ๋๋์ง๋ฅผ ์ธก์ . IDF ๊ฐ์ ํน์ ๋จ์ด์ ์ค์์ฑ์ ๋ฐ์ํ๋ฉฐ, ๋ค๋ฅธ ๋ฌธ์์์ ์์ฃผ ๋ํ๋๋ ๋จ์ด์ผ์๋ก IDF ๊ฐ์ ๋ฎ์ผ๋ฉฐ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
IDF(w) = log(์ด ๋ฌธ์ ์ / ํน์ ๋จ์ด w๋ฅผ ํฌํจํ ๋ฌธ์ ์)
์ด๋, ๋ก๊ทธ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ IDF ๊ฐ์ ์กฐ์ ํ๊ณ , ํน์ ๋จ์ด๊ฐ ์ ์ฒด ๋ฌธ์์ ๋ํ๋์ง ์์ ๋ ๋ถ๋ชจ๊ฐ 0์ด ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
TF-IDF๋ TF์ IDF๋ฅผ ๊ณฑํ์ฌ ๊ณ์ฐ๋๋ค.
TF-IDF(w) = TF(w) * IDF(w)
TF-IDF๋ ์ฃผ์ด์ง ๋ฌธ์์ ๋จ์ด์ ๋ํ ์ค์์ฑ์ ๊ณ์ฐํ๋ฉฐ, ์ด ๊ฐ์ ํน์ ๋ฌธ์์์ ํน์ ๋จ์ด๊ฐ ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๋ํ๋ธ๋ค. ์๋ฅผ ๋ค์ด, ํน์ ๋จ์ด๊ฐ ํ ๋ฌธ์์์ ์์ฃผ ๋ํ๋๊ณ ๋ค๋ฅธ ๋ฌธ์์์๋ ๋๋ฌผ๊ฒ ๋ํ๋๋ฉด, ํด๋น ๋จ์ด์ TF-IDF ๊ฐ์ ์๋์ ์ผ๋ก ๋์์ง๋ค. ์ด๋ฅผ ํตํด ๋ฌธ์ ๊ฐ์ ๋จ์ด ์ค์์ฑ ๋ฐ ์ ์ฌ์ฑ์ ์ธก์ ํ๊ณ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์๋ค.
TF-IDF๋ฅผ ์ด์ฉํ ๋ฌธ์ ์ ์ฌ๋ ๊ณ์ฐ
TF-IDF๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ๋ฌธ์ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ
- ๋น๊ตํ ๋ฌธ์๋ค์ ์์งํ๊ณ , ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌ
- ์ด ๋จ๊ณ์์๋ ํ ํฐํ, ์๋ฌธ์ ๋ณํ, ๊ตฌ๋์ ๋ฐ ๋ถ์ฉ์ด ์ ๊ฑฐ ๋ฑ์ ์ํ
2. TF-IDF ๋ฒกํฐ ์์ฑ
- ๊ฐ ๋ฌธ์๋ฅผ TF-IDF ๋ฒกํฐ๋ก ํํ
- ๊ฐ ๋ฌธ์์ TF-IDF ๋ฒกํฐ๋ ๋จ์ด์ ์งํฉ์ ํน์ฑ์ผ๋ก ๊ฐ์ง
3. ๋ฌธ์ ๊ฐ ์ ์ฌ๋ ๊ณ์ฐ
- ๊ฐ ๋ฌธ์ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์ ์ฌ์ฑ ์ธก์ ๋ฐฉ๋ฒ์ ์ ํ.
- ์ผ๋ฐ์ ์ผ๋ก ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ฅผ ์ฌ์ฉ
- ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ ๋ฒกํฐ ๊ฐ์ ๊ฐ๋๋ฅผ ์ธก์ ํ์ฌ ์ ์ฌ์ฑ์ ๊ณ์ฐํ๋ ์งํ
- ๋ ๋ฌธ์ A์ B ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋จ (๊ฒฐ๊ณผ๋ -1์์ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉฐ, 1์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฌธ์๊ฐ ์ ์ฌํ๋ค๊ณ ํ๋จ)
Cosine Similarity(A, B) = (A ๋ฒกํฐ์ B ๋ฒกํฐ์ ๋ด์ ) / (A ๋ฒกํฐ์ ํฌ๊ธฐ * B ๋ฒกํฐ์ ํฌ๊ธฐ)
4. ์ ์ฌ๋ ์ธก์ ๋ฐ ๋ญํน
- ์ ํํ ์ ์ฌ์ฑ ์ธก์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ ๋ฌธ์ ์ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐ
- ๋ชจ๋ ๋ฌธ์ ์์ ๋ํ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ํ, ์ํ๋ ๋ฌธ์์ ๋น๊ต ๋์ ๋ฌธ์ ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ์ธ
- ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ ๋น๊ต ๋์ ๋ฌธ์๋ฅผ ์ ํํ๊ฑฐ๋, ๋ญํน์ ๋งค๊ธฐ๋ ๋ฑ์ ์์ ์ ์ํ
์ด์ ๊ฐ์ ๋ฐฉ์์ผ๋ก TF-IDF๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ ์ ์๋ค. ์ด๋ฅผ ํตํด ์ ๋ณด ๊ฒ์, ๋ฌธ์ ํด๋ฌ์คํฐ๋ง, ์ถ์ฒ ์์คํ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
๊ด๋ จ ๋ ํฌ์งํ ๋ฆฌ
- TF-IDF ์์ : https://github.com/mayank408/TFIDF
- ๋ฌธ์ ์ ์ฌ๋ ์ธก์ : https://github.com/malteos/awesome-document-similarity
'๐ Fundamentals > NLP' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] Word2Vec ์ค๋ช | word2vec ๊ด๋ จ ๊นํ ๋ ํฌ์งํ ๋ฆฌ (0) | 2023.09.22 |
---|