본문 바로가기
728x90

nlp3

[NLP] BERT 간단 설명 | Bi-Directional LM | 양방향 언어 모델 BERT(Bidirectional Encoder Representations from Transformers) BERT는 자연어 처리 (NLP) 분야에서 혁신적인 모델 중 하나로, 구글이 개발해 2018년에 공개되었다. BERT는 이전의 NLP 모델보다 더 탁월한 성능을 제공하여 다양한 자연어 처리 작업에서 상위 성과를 이루어 냈다. 이 모델은 특히 사전 훈련된 언어 모델을 사용하여 다른 NLP 작업에 적용할 수 있는 다목적 모델로 주목받았다. 논문 제목은 아래와 같으며 피인용수는 약 8만회(23년 9월 기준)로 이제는 LM 분야에서 정말 기본이 되는 연구라고 할 수 있다. paper : BERT: Pre-training of Deep Bidirectional Transformers for Languag.. 2023. 9. 25.
[NLP] TF-IDF 설명 | 텍스트 데이터 통계적 가중치 계산 | 특정 단어가 문서 내에서 얼마나 중요한지 TF-IDF(Term Frequency-Inverse Document Frequency) TF-IDF는 텍스트 데이터의 정보 검색 및 텍스트 마이닝 분야에서 널리 사용되는 통계적인 가중치 척도이다. TF-IDF는 특정 단어가 문서 내에서 얼마나 중요한지를 측정하는 데 사용되며, 검색 엔진, 문서 분류, 정보 검색, 텍스트 요약 등 다양한 자연어 처리 작업에서 활용된다. TF-IDF는 다음 두 요소(TF, IDF)의 곱으로 계산되는데, 1. TF (Term Frequency, 단어 빈도) 특정 문서 내에서 특정 단어가 얼마나 자주 나타나는지를 측정. 일반적으로 문서 내에서 자주 나타나는 단어일수록 해당 단어의 TF 값은 높으며, TF는 다음과 같이 계산된다. TF(w) = (특정 단어 w의 문서 내 등장 .. 2023. 9. 22.
[NLP] Word2Vec 설명 | word2vec 관련 깃헙 레포지토리 Word2Vec Word2Vec은 자연어 처리 및 텍스트 분석 분야에서 사용되는 중요한 워드 임베딩 기술이다. 워드 임베딩은 단어를 고차원 벡터로 표현하는 기술로, 이러한 벡터는 단어 간의 의미적 유사성을 캡처하고 수학적 연산을 통해 단어 간의 관계를 분석하는 데 사용된다. 이미지의 경우 컴퓨터에 저장되는 형태 자체가 0~255의 RGB 값으로 저장되기에 이 값을 그대로 CNN, Transformer 등의 딥러닝 아키텍처에 입력으로 넣을 수 있지만, 단어의 경우 임베딩하는 과정이 별도로 필요하다. Word2Vec은 단어 임베딩을 학습하기 위한 방법 중 하나로, 두 가지 주요 아키텍처인 CBOW(Continuous Bag of Words)와 Skip-gram을 사용하는데, 이 두 가지 모델은 다음과 같이 .. 2023. 9. 22.
728x90