[튜토리얼] 누구나 사용할 수 있는 CLIP & KoCLIP 모델 예제 | 코딩 못해도 가능해! | 멀티모달 AI 예제

안녕하세요. 오늘은 기본적인 멀티모달 AI 모델인, CLIP을 사용해 보는 튜토리얼을 가져왔어요!

사실 요즘은 딥러닝 프레임워크가 발전해서 굉장히 손쉽게 AI 모델을 다뤄볼 수 있는데요. CLIP 과 같은 트랜스포머 기반의 모델도 허깅페이스 API를 사용하면 굉장히 쉽게 사용해 볼 수 있어요. 특히 학습하지 않고 pre-trained(사전 학습된) 모델을 사용한다면 더더욱 쉽겠죠?

*CLIP : Contrastive Language-Image Pretraining

그래서 오늘은 코딩을 할 줄 모르는 비개발자도 손쉽게 따라할 수 있는 튜토리얼을 만들어 왔답니다 ~~ 🤗

사실 코드가 짧아서 뭐 만들었다고 할 수 있는 수준도 아니긴 해요 ㅎㅎ

CLIP Model

그래도 간단하게 라도 CLIP 모델이 무엇인지는 알아보고 넘어가면 좋겠죠?

CLIP 모델은 텍스트와 이미지를 동시에 이해하는 AI 모델이에요.
OpenAI에서 개발한 이 모델은 텍스트 설명과 이미지가 쌍을 이루는 데이터셋을 사용하여 학습되었으며, 이미지와 텍스트를 연결하는 임베딩 공간을 만들어내죠.
이를 통해 CLIP은 이미지에 대한 텍스트 설명을 생성하거나 텍스트 설명에 맞는 이미지를 찾는 작업을 수행할 수 있어요!
즉, 모델에 이미지와 여러 텍스트 쿼리를 함께 입력하면 이미지와 가장 유사한 텍스트 쿼리를 반환해 주는 것이죠!

튜토리얼

튜토리얼은 기본적으로 구글 코랩(Google Colab) 환경에서 진행되는데요.

구글 코랩은 클라우드 기반의 Jupyter 노트북 환경으로, 사용자가 코드를 작성하고 실행할 수 있는 플랫폼이에요. 근데 뭐 사실 이게 중요한 건 아니고... 무료이고 GPU, TPU 등의 자원을 사용할 수 있으며, 설치가 필요없고 동일한 환경을 구성하기 쉽기 때문에 튜토리얼 환경으로 사용하려고 해요 ㅎㅎ.

비개발자 분들은 개발환경을 구성하다가 포기할 수도 있거든요... 가끔 개발자들도 개발 환경 세팅하다가 멘탈 나가기도 해요 ㅎㅎ

튜토리얼은 아래 깃헙 링크에서 코드를 복사하셔서 구글 코랩에서 실행해 보시면 돼요!
튜토리얼 코드 ➡️ CLIP_tutorial

0. Transformers 패키지 설치

우선 CLIP, KoCLIP 공통적으로 허깅페이스의 transformers 패키지를 설치해 줘야 해요!

📌 CLIP : 영어 버전

1. 패키지 임포트 및 모델 로드

코드에서 사용할 기본적인 패키지를 임포트하고 (사용할 재료들을 미리 테이블에 올려둔다고 생각하면 좋을 것 같네용)
허깅페이스 CLIP 모델을 불러오는 과정이에요

2. 이미지 로드

웹에서 이미지를 불러오는 과정인데요. 사실 폴더에 이미지를 올려서 불러올 수도 있어요.
현재 튜토리얼에서는 웹 url로 이미지를 불러오고 잘 불러와졌는지 한 번 확인하는 코드에요.
고양이 두 마리와 리모컨이 보이는 군요

3. 텍스트 쿼리 지정

이제 텍스트 쿼리를 지정하는 단계인데요.
이미지에서 예상되는 텍스트를 리스트 형태로 준비하는 거에요.
예제에서는 "a photo of a cat", "a photo of a dog" 두 가지만 있지만 더 많이 여러 동물을 입력해도 좋아요.
동물이 아니라 자동차(car), 사람(human) 등도 가능하겠죠?

4. 모델 입력 생성 및 인퍼런스 + 결과 확인

이제 최종적으로 앞서 준비한 이미지와 텍스트 쿼리들로 모델 입력을 생성하고, 모델에 입력하는 과정이에요.
모델 출력은 텐서 형태로 나오는데, confidence score가 가장 높게 나오는 텍스트가 이미지와 가장 유사한 텍스트라고 보면 돼요
무슨 말인지 잘 모르시겠다면, pred_text에 최종 예측값이 나오게 설정해 두었답니다 ~!

예제에서는 "a photo of a cat" 이라는 결과가 나왔네요. 이미지에 고양이가 있으니 잘 예측한 것이죠? ㅎㅎ

📌 KoCLIP : 한글 버전

허깅페이스에는 CLIP의 한글 버전인 KoCLIP도 올라가 있는데요. 이는 레퍼지토리가 존재해야만 사용할 수 있어요. 포스팅하는 현 시점에는 계속 유지가 되고 있으니, 아마 잘 동작할거에요. CLIP과 다르게 텍스트 쿼리를 한글로 줘도 된답니다. 나머지 부분은 동일해요!

1. 패키지 임포트 및 모델 로드

2. 이미지 로드

3. 텍스트 쿼리 지정

여기 텍스트 쿼리를 지정하는 부분에서 한글로 지정하면 돼요. 조금 더 간단하죠?
과일로 예시를 바꾸면 "사과", "바나나", "토마토" 와 같은 텍스트 쿼리 리스트를 지정할 수도 있겠죠?

4. 모델 입력 생성 및 인퍼런스 + 결과 확인

결과 또한 한글로 "고양이 두 마리"를 출력하는 것을 볼 수 있네요!

Python 파일 예제

물론 py 파이썬 파일로 구성한 예제도 있어요. 아래 예제는 폴더에서 'dog.png' 라는 강아지 이미지를 가져와서 테스트해 보는 예제인데요.

vscode와 같은 IDE에서 아래와 같은 파이썬 코드를 사용하여 테스트하시면 조금더 다양하게 활용해 볼 수 있을거에요!!

대신 코드를 조금 더 만질 줄 알아야겠죠? ㅎㅎ

아래 두 코드도 깃헙 에서 제공하고 있으니 참고해 주세요 !

CLIP

from PIL import Image
import torch

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

## 이미지 경로 지정
image_path = 'dog.png'

image = Image.open(image_path).convert('RGB')

## 텍스트 쿼리 지정
text_query = ["a photo of a cat", "a photo of a dog"]

inputs = processor(text=text_query, images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  
probs = logits_per_image.softmax(dim=1) 

pred_idx = torch.argmax(probs[0]).item()
pred_text = text_query[pred_idx]

print(f'pred : {pred_text}')

KoCLIP

import torch
from PIL import Image
from transformers import AutoModel, AutoProcessor

repo = "Bingsu/clip-vit-large-patch14-ko"
model = AutoModel.from_pretrained(repo)
processor = AutoProcessor.from_pretrained(repo)

## 이미지 경로 지정
image_path = 'dog.png'

image = Image.open(image_path).convert('RGB')

## 텍스트 쿼리 지정
text_query = ["고양이 사진", "강아지 사진"]
inputs = processor(text=text_query, images=image, return_tensors="pt", padding=True)

with torch.inference_mode():
    outputs = model(**inputs)

logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)

pred_idx = torch.argmax(probs[0])
pred_text = text_query[pred_idx]

print(pred_text)

자 오늘은 CLIP, KoCLIP을 실행해 보는 튜토리얼을 다뤄봤는데요. 생각보다 정말 간단하게 AI 모델을 사용해 볼 수 있죠?

이미지와 텍스트 쿼리만 수정한다면 여러분이 자유자재로 모델을 사용해 볼 수 있으니 여러분도 다양하게 활용해 보세요!

궁금한 점이 있으시면 댓글로 남겨주세요 :)

'💻 Programming > AI & ML' 카테고리의 다른 글

[pytorch] 모델 일부분만 저장하기/불러오기 (0)	2023.12.09
[ONNX] 딥러닝 모델 ONNX Runtime으로 CPU 환경에서 가속화하기 (0)	2023.11.16
[Model Inference] Pytorch 2.0 Compile 사용 후기 및 장단점 \| pytorch compile 모델 추론 속도 개선 테스트 (1)	2023.10.07
[Model Inference] Torch-TensorRT 사용법 \| 딥러닝 모델 최적화 및 인퍼런스 가속화 (1)	2023.10.02
[pytorch] Multi-GPU Training \| 다중 GPU 학습 예시\| Distributed Data Parallel (DDP) \| Data Parallel (DP) (0)	2023.04.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[튜토리얼] 누구나 사용할 수 있는 CLIP & KoCLIP 모델 예제 | 코딩 못해도 가능해! | 멀티모달 AI 예제 | CLIP & 한국어 CLIP

CLIP Model

튜토리얼

📌 CLIP : 영어 버전

📌 KoCLIP : 한글 버전

Python 파일 예제

'💻 Programming > AI & ML' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역