์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ํ์ง์ ํ๊ฐํ๊ธฐ ์ํด ๋ค์ํ ์ ๋์ ์งํ๊ฐ ์ฌ์ฉ๋๋ค. ๋ณธ ํฌ์คํธ์์๋ FID, IS, Precision/Recall, CLIP score, LPIPS ๋ฑ ๋ํ์ ์ธ ํ๊ฐ ์งํ๋ค์ ๊ฐ๋ , ๊ณ์ฐ ๋ฐฉ์, ํด์ ๋ฐฉ๋ฒ ์ค์ฌ์ผ๋ก ์ ๋ฆฌํ๋ค.
1. FID (Fréchet Inception Distance)
FID๋ ์์ฑ๋ ์ด๋ฏธ์ง๋ค์ ๋ถํฌ๊ฐ ์ค์ ์ด๋ฏธ์ง์ ๋ถํฌ์ ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ์ธก์ ํ๋ ๋ํ์ ์ธ ์งํ์ด๋ค. ์ง์ ์ ์ผ๋ก ์ด๋ฏธ์ง ๊ฐ์ ์ ์ฌ๋๋ฅผ 1:1๋ก ๋น๊ตํ๋ ๋ฐฉ์์ด ์๋๋ผ, ์ด๋ฏธ์ง์์ ์ถ์ถํ ํน์ง(feature)์ ์ ์ฒด ๋ถํฌ๋ฅผ ๋น๊ตํ๋ค๋ ์ ์์ ๋งค์ฐ ๊ฐ๋ ฅํ๊ณ ์ง๊ด์ ์ธ ์ฑ์ง์ ๊ฐ์ง๋ค.
๊ณ์ฐ ๋ฐฉ์
- InceptionV3 ๋ชจ๋ธ์ ํตํด ์ค์ ์ด๋ฏธ์ง๋ค๊ณผ ์์ฑ ์ด๋ฏธ์ง๋ค์์ 2048์ฐจ์ feature๋ฅผ ์ถ์ถํ๋ค.
- ๋ ๋ถํฌ์ ํ๊ท (μ)๊ณผ ๊ณต๋ถ์ฐ(Σ)์ ๊ตฌํ๋ค.
- Fréchet Distance ๊ณต์์ ์ฌ์ฉํด ๋ ๋ถํฌ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ค.

ํด์
- ๊ฐ์ด ๋ฎ์์๋ก ์ข๋ค. (0์ ๊ฐ๊น์ธ์๋ก ์์ฑ ์ด๋ฏธ์ง ๋ถํฌ๊ฐ ์ค์ ์ ์ ์ฌํ๋ค๋ ์๋ฏธ)
- ์ ์ฒด ๋ถํฌ ๋จ์์ ํ๊ฐ์ด๋ฏ๋ก ์ด๋ฏธ์ง ํ๋ํ๋์ ํ์ง๋ณด๋ค๋ ์ ์ฒด ๋ถํฌ ์ ์ฌ์ฑ์ ๋ณธ๋ค.
- ๋จ์ํ "์ข์ ๋ณด์ด๋ ์ํ" ๋ช ๊ฐ๋ฅผ ํ๊ฐํ๋ ๊ฒ์ด ์๋๋ผ, ๋ชจ๋ธ์ด ์ ์ฒด ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์ ์ฌํํ๋์ง๋ฅผ ์์นํํ ์ ์๋ค. ์ด๋ ํนํ ๋ชจ๋ธ์ด ํ์ตํ ๋ฐ์ดํฐ์ ๋ค์์ฑ๊ณผ ํ์ง์ ๋์์ ํ๊ฐํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ค.
- FID๋ ์คํ์ ์ผ๋ก ์ธ๊ฐ ํ๊ฐ์์ ์๊ด๊ด๊ณ๊ฐ ๋์ ๊ฒ์ผ๋ก ๋ํ๋ฌ๊ธฐ ๋๋ฌธ์, ์ ๋์ ์ธ ์์น์์๋ ์ฌ๋์ด ๋ดค์ ๋ ์ข์ ์ด๋ฏธ์ง์ ๋์ฒด๋ก ์ผ์นํ๋ ํ๋จ์ ๋ด๋ฆด ์ ์๋ค.
2. IS (Inception Score)
IS๋ ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ๋ช ํํ ๋ถ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๋์ง์, ์์ฑ๋ ์ด๋ฏธ์ง๋ค ๊ฐ์ ๋ค์์ฑ์ด ์๋์ง๋ฅผ ๋์์ ํ๊ฐํ๋ค.
๊ณ์ฐ ๋ฐฉ์
- InceptionV3 ๋ชจ๋ธ์ softmax ์ถ๋ ฅ p(y|x)๋ฅผ ํตํด ์ด๋ฏธ์ง๊ฐ ์ผ๋ง๋ ํน์ ํด๋์ค๋ก ์ ๋ถ๋ฅ๋๋์ง ์ธก์
- ์์ฑ๋ ์ด๋ฏธ์ง๋ค์ ํ๊ท ๋ถํฌ p(y)์ ๊ฐ ์ด๋ฏธ์ง์ (y|x)๋ฅผ KL Divergence๋ก ๋น๊ต

ํด์
- IS๊ฐ ๋๋ค๋ ๊ฒ์, ๋ชจ๋ธ์ด ์๋ฏธ ์๊ณ , ๋ค์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ ์๋ฏธ
- p(y|x) ๊ฐ sharpํ ์๋ก → ๊ฐ๋ณ ์ด๋ฏธ์ง๊ฐ ๋ถ๋ช ํ ํด๋์ค๋ฅผ ๊ฐ์ง๋ค (์ฆ, "์๋ฏธ ์๋ ์ด๋ฏธ์ง").
- p(y) ๊ฐ uniformํ ์๋ก → ๋ค์ํ ํด๋์ค์ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋์๋ค๋ ๋ป (์ฆ, "๋ค์์ฑ").
- ๋์ IS๋ ์ด๋ฏธ์ง ํ๋ํ๋๊ฐ ๋๋ ทํ ๊ฐ์ฒด๋ฅผ ํํํ๊ณ ์์ผ๋ฉฐ, ๋์์ ๋ค์ํ ํด๋์ค๋ฅผ ํฌํจํ๊ณ ์์์ ์๋ฏธํ๋ค.
- ๋ค๋ง ์ค์ ์ด๋ฏธ์ง์ ๋น๊ตํ์ง ์๊ธฐ ๋๋ฌธ์ ํ์ค์ฑ๊ณผ ๋ฌด๊ดํ ์ ์๋ค.
3. Precision & Recall (์์ฑ ๋ถํฌ vs ์ค์ ๋ถํฌ)
Precision์ ์์ฑ๋ ์ด๋ฏธ์ง๋ค์ด ์ค์ ์ด๋ฏธ์ง ๋ถํฌ ๋ด์ ์ ํฌํจ๋์ด ์๋์ง๋ฅผ ์ธก์ ํ๊ณ , Recall์ ์ค์ ์ด๋ฏธ์ง๋ค์ด ์์ฑ ๋ชจ๋ธ์ด ์ปค๋ฒํ๋ ๋ถํฌ ์์ ํฌํจ๋์ด ์๋์ง๋ฅผ ์ธก์ ํ๋ค.
๊ณ์ฐ ๋ฐฉ์ (feature space ์์์)
- ์์ฑ ์ด๋ฏธ์ง์ ์ค์ ์ด๋ฏธ์ง ๋ชจ๋๋ฅผ InceptionV3 ๋ฑ์ ํตํด ์๋ฒ ๋ฉ (2048 ์ฐจ์)
- ์์ฑ๋ ์ด๋ฏธ์ง๋ค: G={g1,g2,…,gn}
- ์ค์ ์ด๋ฏธ์ง๋ค: R={r1,r2,…,rm}
- ๊ฐ ์๋ฒ ๋ฉ ํฌ์ธํธ gi, rj ์ฃผ๋ณ์ ๋ฐ์ง๋ฆ ε์ hypersphere ์์ฑ
- ํฌ์ธํธ ์ปค๋ฒ๋ฆฌ์ง ํ์ธ
- Precision: ๊ฐ gi์ ๋ํด, ๊ทธ ์์ ์ค์ ์ด๋ฏธ์ง rj๊ฐ ๋ค์ด์ค๋์ง ํ์ธ → ๋น์จ ๊ณ์ฐ
- Recall: ๊ฐ rj์ ๋ํด, ๊ทธ ์์ ์์ฑ ์ด๋ฏธ์ง gi๊ฐ ๋ค์ด์ค๋์ง ํ์ธ → ๋น์จ ๊ณ์ฐ
ํด์
- Precision์ด ๋์ผ๋ฉด "์ง์ง ๊ฐ์ ์ด๋ฏธ์ง"๊ฐ ๋ง๊ณ ,
- Recall์ด ๋์ผ๋ฉด "๋ค์ํ ์ด๋ฏธ์ง"๋ฅผ ์ ์์ฑํ๊ณ ์๋ค๋ ๋ป์ด๋ค.
- ๋ ๊ฐ์ ๋ชจ๋ ๋๊ฒ ์ ์งํ๋ ๊ฒ์ด ์ข๋ค.
4. CLIP Score
CLIP Score๋ ํ
์คํธ์ ์ด๋ฏธ์ง ๊ฐ ์๋ฏธ์ ์ผ์น๋๋ฅผ ์ธก์ ํ๋ ์งํ๋ค. ํ
์คํธ ํ๋กฌํํธ์ ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ์ผ๋ง๋ ์๋ฏธ์ ์ผ๋ก ์ ๋์๋๋์ง๋ฅผ CLIP ๋ชจ๋ธ์ ํตํด ๊ณ์ฐํ๋ค.
๊ณ์ฐ ๋ฐฉ์
- ํ ์คํธ ํ๋กฌํํธ์ ์์ฑ ์ด๋ฏธ์ง ๊ฐ๊ฐ์ CLIP์ ํ ์คํธ/๋น์ ์ธ์ฝ๋์ ํต๊ณผ์์ผ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ถ์ถ
- ๋ ๋ฒกํฐ ๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ณ์ฐ
ํด์
- ๊ฐ์ด ๋์์๋ก ํ ์คํธ์ ์ด๋ฏธ์ง์ ์๋ฏธ๊ฐ ์ ์ผ์นํ๋ค๋ ์๋ฏธ
- ๋จ์ํ ์ด๋ฏธ์ง๊ฐ ‘์ง์ง์ฒ๋ผ ๋ณด์ด๋๋’๋ฅผ ๋์ด์, “์์ฒญํ ๋ด์ฉ์ ๋ง๋ ์ด๋ฏธ์ง์ธ๊ฐ?”๋ฅผ ์ ๋ํ
- ์: "A dog wearing a red hat" → ์ ๋ง ๋นจ๊ฐ ๋ชจ์๋ฅผ ์ด ๊ฐ์์ง๊ฐ ๋์๋๊ฐ?
- Text-to-Image ํ์คํฌ์์ ํ๋กฌํํธ ์ถฉ์ค๋๋ฅผ ํ๊ฐํ ์ ์๋ค.
5. LPIPS (Learned Perceptual Image Patch Similarity)
LPIPS๋ ๋ ์ด๋ฏธ์ง ๊ฐ์ ์ง๊ฐ์ ์ธ ์ ์ฌ์ฑ(perceptual similarity)์ ์ธก์ ํ๋ค. ๋จ์ํ ํฝ์ ๊ฐ ์ฐจ์ด(MSE ๋ฑ)๊ฐ ์๋, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ค์ค ๋ ์ด์ด feature ์ฐจ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ค.
๊ณ์ฐ ๋ฐฉ์
- ๋ ์ด๋ฏธ์ง๋ฅผ pretrained ๋ชจ๋ธ(VGG, AlexNet ๋ฑ)์ ์ ๋ ฅ
- ์ฌ๋ฌ ์ธต์ feature map์ ์ถ์ถ
- ๋์๋๋ ๋ ์ด์ด๋ผ๋ฆฌ์ L2 ๊ฑฐ๋ฆฌ ๊ณ์ฐ ํ ๊ฐ์ค ํ๊ท
ํด์
- ๊ฐ์ด ๋ฎ์์๋ก ๋ ์ด๋ฏธ์ง๊ฐ ์ง๊ฐ์ ์ผ๋ก ์ ์ฌํ๋ค.
- 1:1 ๋น๊ต์ ์ ํฉํ๋ฉฐ, ๋ณดํต ์๋ณธ ์ด๋ฏธ์ง์ ์์ฑ ์ด๋ฏธ์ง์ ํ์ง ์ ์ฌ๋๋ฅผ ๋ณผ ๋ ์ฌ์ฉ๋๋ค.
์ด์ฒ๋ผ ๋ค์ํ ์งํ๋ค์ด ์๋ก ๋ค๋ฅธ ๊ด์ ์์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ค. FID๋ ๋ถํฌ ์ ์ฌ์ฑ, IS๋ ๋ค์์ฑ๊ณผ ๋๋ ทํจ, Precision/Recall์ ์ปค๋ฒ๋ฆฌ์ง, CLIP Score๋ ํ ์คํธ ์ถฉ์ค๋, LPIPS๋ ์ง๊ฐ์ ์ ์ฌ์ฑ์ ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ ํ๋์ ์งํ๋ง์ผ๋ก ํ๋จํ๊ธฐ๋ณด๋ค๋, ์ฌ๋ฌ ์งํ๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค.