[NLP] TF-IDF 설명 | 텍스트 데이터 통계적 가중치 계산 | 특정 단어가 문서 내에서 얼마나 중요한지
·
📖 Fundamentals/NLP
TF-IDF(Term Frequency-Inverse Document Frequency) TF-IDF는 텍스트 데이터의 정보 검색 및 텍스트 마이닝 분야에서 널리 사용되는 통계적인 가중치 척도이다. TF-IDF는 특정 단어가 문서 내에서 얼마나 중요한지를 측정하는 데 사용되며, 검색 엔진, 문서 분류, 정보 검색, 텍스트 요약 등 다양한 자연어 처리 작업에서 활용된다. TF-IDF는 다음 두 요소(TF, IDF)의 곱으로 계산되는데, 1. TF (Term Frequency, 단어 빈도) 특정 문서 내에서 특정 단어가 얼마나 자주 나타나는지를 측정. 일반적으로 문서 내에서 자주 나타나는 단어일수록 해당 단어의 TF 값은 높으며, TF는 다음과 같이 계산된다. TF(w) = (특정 단어 w의 문서 내 등장 ..