๋ฐ์ํ
๋ณธ ์ ๋ฆฌ๋Text-to-Image (T2I), Image-to-Image (TI2I) ๋ชจ๋ธ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค. ๋จ์ ์ด๋ฏธ์ง ์์ฑ ํ์ง์ ๋์ด, ํ ์คํธ ์ดํด๋ ฅ·์ธ๊ณ์ง์·์ง๋ฅํ ํธ์ง(reasoning)๊น์ง ํ๊ฐํ๋ ํ๋ฆ์ ์ด์ ์ ๋ง์ท๋ค.
1. Text-to-Image (T2I) Datasets
| ์ด๋ฆ | ๋ฐ์ดํฐ ๊ท๋ชจ | ์ฃผ์ ํน์ง |
| LAION-5B (Aesthetic / HighRes) | 5B (Aesthetic ~200M) | • ์คํ์น ์ด๋ฏธ์ง-ํ
์คํธ ๋๊ท๋ชจ ๋ฐ์ดํฐ • CLIP score ๋ฐ aesthetic score ๊ธฐ๋ฐ ํํฐ๋ง์ผ๋ก ํ์ง ์ ์ . |
| CC12M (Conceptual Captions 12M) | 12M | • ๊ตฌ๊ธ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์๋ ์บก์
์์ง + ํํฐ๋ง. ํ
์คํธ ๋ค์์ฑ๊ณผ ์ธ์ด ์ผ๋ฐํ๋ ฅ ํฅ์. • ์๋์ ์ผ๋ก ์งง๊ณ ์ ํํ ์บก์ |
| DiffusionDB | 14M | • ์ค์ Stable Diffusion ์ฌ์ฉ์ ํ๋กฌํํธ-๊ฒฐ๊ณผ ๋งคํ • ํ์ค์ prompt ์คํ์ผ ๋ฐ์, RLHF·SFT alignment ์ฐ๊ตฌ์ ์ ํฉ. |
| JourneyDB | ~5M | • Midjourney·Lexica ๋ฑ ์์ฑ ์ด๋ฏธ์ง ๊ธฐ๋ฐ high-aesthetic dataset. ์คํ์ผ ์ฌํ·LoRA ํ์ต์ฉ. |
| FLUX-Reason-6M | 6M | • FLUX ์๋ฆฌ์ฆ ์ ์ฉ reasoning-augmented T2I ๋ฐ์ดํฐ์
• ๋ณตํฉ ๊ฐ๋ ์กฐํฉ ๋ฐ world reasoning ๊ฐํ. |
2. Image-to-Image (TI2I / Image Editing) Datasets
| ์ด๋ฆ | ๋ฐ์ดํฐ ๊ท๋ชจ | ์ฃผ์ ํน์ง |
| ImgEdit | 1.2M | • ํ ์คํธ ๊ธฐ๋ฐ ํธ์ง(Instruction-based Editing) ๋ฐ์ดํฐ. ์๋ณธ-ํ๊น ์ด๋ฏธ์ง + ์ง์๋ฌธ ํฌํจ. . |
| HQ-Edit | 200K | • ๊ณ ํด์๋ ํธ์ง·๋ณต์·Inpainting ์ง์. ์ธ์คํด์ค ๋ง์คํฌ ํฌํจ์ผ๋ก ์ธ๋ฐํ ์ ์ด ๊ฐ๋ฅ. |
| X2I2 |
4M | • “Any-to-Any” ํ์ ์ฆ, ํ
์คํธ→์ด๋ฏธ์ง, ์ด๋ฏธ์ง→์ด๋ฏธ์ง, ์ฐธ์กฐ ์ด๋ฏธ์ง ์ฌ๋ฌ ์ฅ→์ด๋ฏธ์ง ๋ฑ ๋ค์ํ ์
๋ ฅ์กฐ๊ฑด์ ์ง์ • ์์ ํ๋ ์, ์ฐธ์กฐ ์ด๋ฏธ์ง, ํธ์ง ์ฟผ๋ฆฌ ๋ฑ์ด ํฌํจ๋ ๋ณตํฉ ์๋๋ฆฌ์ค์ฉ ๋ฐ์ดํฐ๋ก ์ค๊ณ๋จ |
| GPT-Image-Edit-1.5M | 1.5M | • HQ-Edit / UltraEdit / OmniEdit ์ธ ํธ์ง ์
์ GPT-Image-1 ๊ธฐ๋ฐ์ผ๋ก ํตํฉ ์ ์ • ์ง์๋ฌธ์ ๋ณต์ก๋ (level Cโ ๊น์ง) ๋ณ ๋ถ๋ฅ ๋ก ๋จ์-๊ณ ์ฐจ ํธ์ง ๋ชจ๋ ์ปค๋ฒ • OmniEdit 313 K ์ํ์์ complex-edit ํํ ์ง์๋ฌธ ์๋ก ์์ฑ → ๊ณ ์ฐจ reasoning ํธ์ง ํ์ต ๊ฐ๋ฅ • 9 ํธ์ง ํ์คํฌ(add / replace / change_color / transform ๋ฑ) ๊ท ๋ฑ ๋ถํฌ |
3. ์ฃผ์ Benchmarks
| ์ด๋ฆ | ๋ฐ์ดํฐ ๊ท๋ชจ | ์ฃผ์ ํน์ง |
| GenEval | ~8K prompts | Text-to-Image ์์ฑ ํ์ง ์๋ ํ๊ฐ. ์์·๊ฐ์·์์ฑ ์ผ๊ด์ฑ ์ค์ฌ ๋ฉํธ๋ฆญ. |
| WISE (World-Knowledge Integrated Semantic Evaluation) | ~5K prompts (6 domains) | ์ธ๊ณ์ง์·๋ณตํฉ ์๋ฏธ ์ดํด ์ค์ฌ ๋ฒค์น๋งํฌ. GPT-4o ๊ธฐ๋ฐ ์๋ํ๊ฐ. |
| GEdit-Bench | ์์ฒ ๊ฐ ์์ฒญ ๊ธฐ๋ฐ | GIER ๊ธฐ๋ฐ ์ค์ ์ฌ์ฉ์ ํธ์ง ์์ฒญ ํ ์คํธ. GPT-4.1 ๊ธฐ๋ฐ ์๋ ์ฑ์ (G_SC, G_PQ, G_O). |
| IntelligentBench (BAGEL) | 350 samples | reasoning + world knowledge ๊ธฐ๋ฐ ์ง๋ฅํ ํธ์ง ํ๊ฐ. GPT-4o(2024-11-20) ํ๊ฐ ๊ธฐ์ค. |
๋ฐ์ํ