본문 바로가기
728x90

AI22

[AI/ML] Matrix Factorization(행렬 분해)와 머신러닝 머신러닝 관련 공부를 하다보면 행렬에 관한 이야기가 참 많이 나오죠. 정말 지긋지긋한데 그렇다고 또 늘 완벽히 이해하지는 못하는 분야이기도 해요...ㅠ 오늘은 생각난 김에 행렬 분해에 대한 내용을 정리해 보려 합니다. 행렬 분해(Matrix Factorization)는 하나의 행렬을 더 작은 행렬들의 곱으로 분해해 표현하는 방법입니다. 이러한 행렬 분해를 사용하면, 데이터의 크기를 줄이면서도 중요한 정보를 보존할 수 있어요. 데이터를 단순히 압축하는 데 그치지 않고, 그 안에 숨겨진 패턴이나 관계를 찾아내는 데도 정말 유용하답니다. 예를 들어, 추천 시스템에서 사용자와 아이템 간의 선호도를 나타내는 대규모 행렬이 있을 때, 이를 분해하면 각 사용자와 아이템의 잠재적인 특징을 발견할 수 있어요. 이렇게 발.. 2024. 12. 9.
[논문 리뷰] Visual Instruction Tuning | LLaVA Model 💡 LLaVA 1. 연구 주제와 주요 기여 이 연구는 텍스트와 이미지를 함께 이해하고 처리할 수 있는 멀티모달 모델 LLaVA를 제안하고 있어요. 특히 Visual Instruction Tuning을 통해 멀티모달 작업에서 사용자의 지시를 따르고, 복잡한 이미지와 텍스트 기반 작업을 수행할 수 있도록 모델을 설계했어요. 기존의 이미지-텍스트 페어 데이터(예: COCO)를 활용한 학습에서 한 발 더 나아가, GPT-4를 활용해 이미지 설명 캡션을 바탕으로 질문과 답변 형식의 새로운 학습 데이터를 생성했답니다.새로운 데이터셋 생성 방법: GPT-4를 활용해 기존 이미지-텍스트 페어를 멀티모달 지시-응답 데이터로 자동 변환하는 데이터 생성 파이프라인을 개발했어요. 이를 통해 다양한 멀티모달 작업에 활용 가능.. 2024. 12. 4.
[논문 리뷰] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 💡 BLIP-21. 연구 주제와 주요 기여 BLIP-2 논문은 Multi-modal Vision Language Pre-training(VLP)에 대한 비용 효율적인 새로운 접근법을 제안했어요. 기존의 큰 모델을 end-to-end 로 학습시키는 방식의 높은 계산 비용을 해결하기 위해, 이미 학습된 이미지 인코더와 대형 언어 모델(LLM)을 고정(frozen)한 채로 사용하는 방법을 고안했어요. Querying Transformer(Q-Former): Modality Gap(이미지와 텍스트 간의 차이)를 효과적으로 줄이기 위한 경량 모듈을 제안했어요.Two-stage Pre-training: 기존 모델의 강점을 결합한 Representation Learning과 Generative Learning 전략.. 2024. 12. 4.
[논문 리뷰] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 💡 BLIP1. 연구 주제와 주요 기여 BLIP는 Vision-Language Pre-training(VLP)을 위한 새로운 프레임워크로, 이미지와 텍스트 간의 이해 기반 작업과 생성 기반 작업을 모두 효과적으로 수행할 수 있도록 설계되었어요.기존 VLP 모델의 한계를 다음과 같이 개선했어요.이해 기반(예: 이미지-텍스트 검색) 또는 생성 기반(예: 이미지 캡션 생성) 작업에 특화된 기존 모델의 단점을 보완.웹에서 수집된 노이즈가 많은 데이터로부터 학습 성능을 극대화하기 위한 데이터 부트스트래핑 방법 제안.BLIP는 SOTA 성능을 기록하며 다양한 Vision-Language 작업에서 우수한 결과를 보였어요. 2. 연구 배경 및 동향Vision-Language Pre-training (VLP)Visio.. 2024. 12. 4.
Stable Diffusion: 이미지 생성 AI 이해하기 AI를 활용한 이미지 생성 기술은 단순한 픽셀 단위의 변형을 넘어, 고유한 예술적 창의성을 담아내는 단계에 이르렀다. AI는 이제 텍스트와 같은 간단한 조건에서부터 복잡한 이미지 디테일까지, 사용자 요구에 맞춰 고해상도 이미지를 생성할 수 있게 되었다. 이러한 흐름의 선두에 있는 기술 중 하나가 Stable Diffusion이다. 이 모델은 기존의 이미지 생성 모델들이 겪던 한계를 해결하며, 다양한 조건에서도 효율적으로 이미지를 생성할 수 있도록 설계되었다. Stable Diffusion의 구조와 학습 방식을 이해하면 이미지 생성 AI가 어떻게 발전해왔고, 어떤 방식으로 더 창의적인 결과물을 만들어내는지 알 수 있다. Diffusion Model ? Diffusion model은 데이터에 점진적으로 노이.. 2024. 11. 4.
[LLM] RAG 설명 및 실습 | OpenAI 모델과 ChromaDB를 이용한 RAG 실습 안녕하세요! 뭅즤입니다. 이번 포스팅에서는 OpenAI의 Chat API와 ChromaDB를 활용한 RAG(Retrieval-Augmented Generation)에 대해 설명드릴게요. 실습 코드도 있답니다 😊 RAG는 외부 데이터와 언어 모델을 결합해 좀 더 정확하고 맥락에 맞는 답변을 생성하는 데 도움이 돼요 🤗📌 RAG (Retrieval-Augmented Generation)RAG는 Retrieval-Augmented Generation의 약자로, 정보 검색과 생성형 AI를 결합한 방법이에요. GPT와 같은 언어 모델은 자체적으로 다양한 지식을 가지고 있지만, 최신 정보나 특정 도메인에 대한 상세한 내용을 알지 못할 때도 있어요. 이런 경우를 해결하기 위해 RAG를 사용해요.Retrieval.. 2024. 9. 16.
728x90