[AI/LLM] Transformer Attention 이해하기: Q, K, V의 역할과 동작 원리
·
🏛 Research/NLP & LLM
LLM하면 transformer를 빼먹을 수 없고, 그 핵심 중 하나는 바로 어텐션 메커니즘인데요, 이 메커니즘을 이해하면 트랜스포머가 어떻게 단어들 간의 관계를 학습하고 문맥을 파악하는지 알 수 있어요. 특히, 트랜스포머에서 사용되는 Query (Q), Key (K), Value (V)는 어텐션이 어떻게 작동하는지 이해하는 데 아주 중요한 역할을 해요. 오늘은 이 세 가지 요소가 어떻게 서로 작용하는지, 그리고 트랜스포머의 인코더와 디코더에서 각각 어떻게 사용되는지에 대해 설명해 볼거예요. 📌 Q, K, V 개념 살펴보기 Transformer Attention에서의 Query (Q), Key (K), Value (V)는 단어 간의 연관성을 파악하고, 중요한 정보를 뽑아내는 역할을 해요. 각 단어는 문..
[LLM] Ollama: 로컬에서 LLM을 실행하는 가장 쉬운 방법 | ollama 사용 방법
·
💻 Programming/LLM
요즘은 허깅페이스, 랭체인 등의 프레임워크 덕에 LLM을 사용하는 방법이 정말 다양하고 편리해졌어요. 하지만 여전히 클라우드 기반의 복잡한 설정이나 높은 비용 때문에 고민하는 분들도 많죠. 이럴 때 도움이 되는 플랫폼이 바로 Ollama입니다. Ollama는 사용자가 클라우드 없이도 로컬에서 간편하게 대형 언어 모델을 실행할 수 있도록 도와줘요. 그리고 데이터 프라이버시를 지키면서도 뛰어난 성능을 제공하니, AI 기술을 보다 쉽게 접근할 수 있도록 해준답니다. 📌 주요 기능로컬에서 모델 실행 : Ollama는 LLM을 로컬 컴퓨터에서 직접 실행할 수 있게 해줘요. 덕분에 클라우드 서비스를 사용하지 않아도 되고, 데이터가 외부로 나가지 않으니 프라이버시를 지킬 수 있어요.사전 학습된 모델 제공 : Oll..
[NLP] BERT 간단 설명 | Bi-Directional LM | 양방향 언어 모델
·
🏛 Research/NLP & LLM
BERT(Bidirectional Encoder Representations from Transformers) BERT는 자연어 처리 (NLP) 분야에서 혁신적인 모델 중 하나로, 구글이 개발해 2018년에 공개되었다. BERT는 이전의 NLP 모델보다 더 탁월한 성능을 제공하여 다양한 자연어 처리 작업에서 상위 성과를 이루어 냈다. 이 모델은 특히 사전 훈련된 언어 모델을 사용하여 다른 NLP 작업에 적용할 수 있는 다목적 모델로 주목받았다. 논문 제목은 아래와 같으며 피인용수는 약 8만회(23년 9월 기준)로 이제는 LM 분야에서 정말 기본이 되는 연구라고 할 수 있다. paper : BERT: Pre-training of Deep Bidirectional Transformers for Languag..
[NLP] TF-IDF 설명 | 텍스트 데이터 통계적 가중치 계산 | 특정 단어가 문서 내에서 얼마나 중요한지
·
📖 Fundamentals/NLP
TF-IDF(Term Frequency-Inverse Document Frequency) TF-IDF는 텍스트 데이터의 정보 검색 및 텍스트 마이닝 분야에서 널리 사용되는 통계적인 가중치 척도이다. TF-IDF는 특정 단어가 문서 내에서 얼마나 중요한지를 측정하는 데 사용되며, 검색 엔진, 문서 분류, 정보 검색, 텍스트 요약 등 다양한 자연어 처리 작업에서 활용된다. TF-IDF는 다음 두 요소(TF, IDF)의 곱으로 계산되는데, 1. TF (Term Frequency, 단어 빈도) 특정 문서 내에서 특정 단어가 얼마나 자주 나타나는지를 측정. 일반적으로 문서 내에서 자주 나타나는 단어일수록 해당 단어의 TF 값은 높으며, TF는 다음과 같이 계산된다. TF(w) = (특정 단어 w의 문서 내 등장 ..
[NLP] Word2Vec 설명 | word2vec 관련 깃헙 레포지토리
·
📖 Fundamentals/NLP
Word2Vec Word2Vec은 자연어 처리 및 텍스트 분석 분야에서 사용되는 중요한 워드 임베딩 기술이다. 워드 임베딩은 단어를 고차원 벡터로 표현하는 기술로, 이러한 벡터는 단어 간의 의미적 유사성을 캡처하고 수학적 연산을 통해 단어 간의 관계를 분석하는 데 사용된다. 이미지의 경우 컴퓨터에 저장되는 형태 자체가 0~255의 RGB 값으로 저장되기에 이 값을 그대로 CNN, Transformer 등의 딥러닝 아키텍처에 입력으로 넣을 수 있지만, 단어의 경우 임베딩하는 과정이 별도로 필요하다. Word2Vec은 단어 임베딩을 학습하기 위한 방법 중 하나로, 두 가지 주요 아키텍처인 CBOW(Continuous Bag of Words)와 Skip-gram을 사용하는데, 이 두 가지 모델은 다음과 같이 ..