[Gen AI] T2I & TI2I 데이터셋 및 벤치마크 정리 | 이미지 생성 & 편집 데이터셋 — moovzi’s Doodle

본 정리는Text-to-Image (T2I), Image-to-Image (TI2I) 모델 연구에서 사용되는 데이터셋을 정리한 것이다. 단순 이미지 생성 품질을 넘어, 텍스트 이해력·세계지식·지능형 편집(reasoning)까지 평가하는 흐름에 초점을 맞췄다.

1. Text-to-Image (T2I) Datasets

이름	데이터 규모	주요 특징
LAION-5B (Aesthetic / HighRes)	5B (Aesthetic ~200M)	• 오픈웹 이미지-텍스트 대규모 데이터 • CLIP score 및 aesthetic score 기반 필터링으로 품질 정제.
CC12M (Conceptual Captions 12M)	12M	• 구글 이미지 기반 자동 캡션 수집 + 필터링. 텍스트 다양성과 언어 일반화력 향상. • 상대적으로 짧고 정확한 캡션
DiffusionDB	14M	• 실제 Stable Diffusion 사용자 프롬프트-결과 매핑 • 현실적 prompt 스타일 반영, RLHF·SFT alignment 연구에 적합.
JourneyDB	~5M	• Midjourney·Lexica 등 생성 이미지 기반 high-aesthetic dataset. 스타일 재현·LoRA 학습용.
FLUX-Reason-6M	6M	• FLUX 시리즈 전용 reasoning-augmented T2I 데이터셋 • 복합 개념 조합 및 world reasoning 강화.

2. Image-to-Image (TI2I / Image Editing) Datasets

이름	데이터 규모	주요 특징
ImgEdit	1.2M	• 텍스트 기반 편집(Instruction-based Editing) 데이터. 원본-타깃 이미지 + 지시문 포함. .
HQ-Edit	200K	• 고해상도 편집·복원·Inpainting 지원. 인스턴스 마스크 포함으로 세밀한 제어 가능.
X2I2	4M	• “Any-to-Any” 형식 즉, 텍스트→이미지, 이미지→이미지, 참조 이미지 여러 장→이미지 등 다양한 입력조건을 지원 • 영상 프레임, 참조 이미지, 편집 쿼리 등이 포함된 복합 시나리오용 데이터로 설계됨
GPT-Image-Edit-1.5M	1.5M	• HQ-Edit / UltraEdit / OmniEdit 세 편집 셋을 GPT-Image-1 기반으로 통합 정제 • 지시문의 복잡도 (level C₃ 까지) 별 분류 로 단순-고차 편집 모두 커버 • OmniEdit 313 K 샘플에서 complex-edit 형태 지시문 새로 작성 → 고차 reasoning 편집 학습 가능 • 9 편집 태스크(add / replace / change_color / transform 등) 균등 분포

3. 주요 Benchmarks

이름	데이터 규모	주요 특징
GenEval	~8K prompts	Text-to-Image 생성 품질 자동 평가. 색상·개수·속성 일관성 중심 메트릭.
WISE (World-Knowledge Integrated Semantic Evaluation)	~5K prompts (6 domains)	세계지식·복합 의미 이해 중심 벤치마크. GPT-4o 기반 자동평가.
GEdit-Bench	수천 개 요청 기반	GIER 기반 실제 사용자 편집 요청 테스트. GPT-4.1 기반 자동 채점(G_SC, G_PQ, G_O).
IntelligentBench (BAGEL)	350 samples	reasoning + world knowledge 기반 지능형 편집 평가. GPT-4o(2024-11-20) 평가 기준.

'🏛 Research > Image•Video Generation' 카테고리의 다른 글

[Omni] OmniGen2: Exploration to Advanced Multimodal Generation \| 통합 멀티모달 생성 모델 (1)	2025.11.30
[T2I] Back to Basics: Let Denoising Generative Models Denoise \| Just image Transformers (JiT) 리뷰 (0)	2025.11.29
[Gen AI] BAGEL: Unified Multimodal Design - 이해와 생성의 통합 구조 (0)	2025.10.31
[Gen AI] Qwen-Image 테크니컬 리포트 분석 \| T2I, TI2I \| 이미지 생성 편집 모델 (0)	2025.09.15
[Gen AI] 이미지 생성 모델의 평가 지표 정리 \| FID, IS, CLIP Score, LPIPS,... (1)	2025.08.01

티스토리툴바