23๋ 4์ Meta AI์์ self-supervised learning์ ์ฌ์ฉํ์ฌ ๊ณ ์ฑ๋ฅ ์ปดํจํฐ๋น์ ๋ชจ๋ธ์ ํ์ตํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ธ DINOv2๋ฅผ ๊ณต๊ฐํ๋ค. LLM(Large Language Model) ํ์ต์๋ ํ์ฉ๋๋ self-supervised learning ๋ฐฉ๋ฒ์ ๋ชจ๋ธ ํ์ต ์ ๋ง์ ์์ ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง ์๊ธฐ ๋๋ฌธ์ AI ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฐ๋ ฅํ๊ณ ์ ์ฐํ ๋ฐฉ๋ฒ์ด๋ค.
๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด ์ต๊ทผ ๋ช๋ ๋์ ์ปดํจํฐ๋น์ ์์ ์ ํ์ค ์ ๊ทผ ๋ฐฉ์์ด์๋ ์ด๋ฏธ์ง-ํ ์คํธ๋ฅผ ํ์ด๋ก ํ์ตํ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐฉ์์ ํ์ต ๋ฐฉ๋ฒ์์๋ ์ด๋ฏธ์ง์ ์บก์ ์ ๋ณด์ ์์กดํ ํ์ต์ด ์งํ๋๊ธฐ ๋๋ฌธ์ ๋ช ์์ ์ผ๋ก ์ธ๊ธ๋์ง ์๋ ์ ๋ณด๊ฐ ๋ฌด์๋๋ค๊ณ ํ๋ค. ์ ์ํ๋ DINOv2๋ self-supervised learning์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์บก์ ์ด ํ์์๊ณ (์์กดํ์ง ์๊ณ ) ์ค๋ช ํ๊ธฐ ์ด๋ ค์ด ๋ฐ์ดํฐ๋ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
DINOv2๋ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ์์กดํ์ง ์๊ณ fine-tuning ๊ณผ์ ๋ ํ์ํ์ง ์์ง๋ง ๋ง์ ์ปดํจํฐ๋น์ task์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ปดํจํฐ๋น์ task์ ๋ฐฑ๋ณธ์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ ํฉํ๋ค๊ณ ํ๋ค. ๋ํ DINOv2๋ self-supervision์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ ์ด๋ฏธ์ง ๋ชจ์์ผ๋ก ํ์ตํ ์ ์๊ณ depth estimation๊ณผ ๊ฐ์ ์ด์ ์ ์ ๊ทผ ๋ฐฉ๋ฒ์ผ๋ก ํ ์ ์๋ ๊ธฐ๋ฅ์ ํ์ตํ ์ ์๋ค.
AI ๋ชจ๋ธ ํ์ต์ ์ํด์๋ ๋ฐฉ๋ํ ์์ ๋ ์ด๋ธ๋ง๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฐ, ๋ ์ด๋ธ์ ์์ฑํ๋ ์ผ์ ์๊ฐ๊ณผ ๋น์ฉ์ด ๊ต์ฅํ ๋ง์ด ์์๋๋ ์์ ์ด๋ค. ๊ทธ๋ฐ๋ฐ ๋ชจ๋ธ ํ์ต์ ๋ ์ด๋ธ๋ง๋ ๋ฐ์ดํฐ๊ฐ ํ์์์ง๋ง ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ธ๋ค๋ฉด?
DINOv2์ ๊ฐ์ self-supervision ์ปดํจํฐ๋น์ ๋ชจ๋ธ์ ๋ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ ์ฉํ ๊ฒ์ด๋ผ ํ๋ค. Meta๋ World Resources Institute์ ํ๋ ฅํ์ฌ AI๋ฅผ ์ฌ์ฉํ์ฌ ๋๋ฅ ํฌ๊ธฐ์ ์ง์ญ์ ๊ฑธ์ณ ๋๋ฌด๋ณ๋ก ์ฒ์ ๋งคํํ๋๋ฐ ์ฑ๊ณตํ๊ณ , ๋ถ๋ฏธ์ ์ฒ์์ ์ป์ ๋ฐ์ดํฐ๋ก ํ์ตํ์ง๋ง, ์ ์ธ๊ณ ๋ค๋ฅธ ์์น์์ ๋์ ๋งคํ ์ ํ๋๋ฅผ ๋ณด์ฌ์ค ๋งํผ ์ผ๋ฐํ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋ค.
DINOv2 ๋ฐ๋ชจ
DINOv2๋ ๋ ์ด๋ธ์ด ์๋ 142M๊ฐ์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต๋์๊ณ , ์์ฉ ํ๋ก๊ทธ๋จ์๋ depth estimation, image retrieval, semantic segmentation์ด ํฌํจ๋๋ค. ๋ฐ๋ชจ๋ฅผ ์ ๊ณตํ๊ณ ์์ผ๋ ํ ๋ฒ ์์๋ณด๋๋ก ํ์.
Depth Estimation
DINOv2 ๋ชจ๋ธ์ in/out of distribution ๋ฐ์ดํฐ ๋ชจ๋์์ ๋จ์ผ ์ด๋ฏธ์ง๋ก depth estimation(๊น์ด ์ถ์ ) ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์๋ค. Linear ๋ชจ๋ธ ๋ง์ผ๋ก NYU Depth ๋ฐ SUN RGB-D ๋ชจ๋์์ SOTA๋ฅผ ๋ฌ์ฑํ๋ค๊ณ ํ๋ค. ์ฒซ ๋ฒ์งธ ์์๋ ๋ฉํ AI์์ ์ ๊ณตํ๋ ์ํ ๊ฒฐ๊ณผ์ด๋ฉฐ ๋ ๋ฒ์งธ ์ด๋ฏธ์ง๋ ๊ฐ๋จ์ญ ๋ถ๊ทผ ๋ก๋๋ทฐ ์ด๋ฏธ์ง๋ก ํ ์คํธํ ๊ฒฐ๊ณผ์ธ๋ฐ ๊ฝค ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ OOD(Out-of-Distribution Data)์์๋ ๊น์ด ์ถ์ ์ด ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ธ๋ฐ, ๋ ผ๋ฌธ์ ์์๋ฅผ ๋ณด๋ฉด ๋ค์ํ ํํ์ ๊ทธ๋ฆผ์์๋ ๋ฐฐ๊ฒฝ๊ณผ ๊ฐ์ฒด๋ฅผ ์ ๊ตฌ๋ณํ์ฌ ๊น์ด๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
Image Retrieval
Image Retrieval ์ ๋๊ท๋ชจ ์ํธ ์ด๋ฏธ์ง ์ปฌ๋ ์ ์์ ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ์ ์ฌํ ๋ฏธ์ ์ํ์ ์ฐพ๋๋ค. ๋ฐ๋ชจ ์ฌ์ดํธ ์์์ธ ์ํ ํ ์ฌ์ง์ ์ํ ํ ๊ทธ๋ฆผ์ ์ ์ฐพ์์ฃผ๊ธด ํ์ง๋ง, ์ง์ ํ ์คํธ ํด๋ณธ ๊ดํ๋ฌธ ์ฌ์ง์ ๋์์ ์ธ ๊ฑด์ถ๋ฌผ์ด ๋ฌ์ฌ๋ ์ํ์ ์ฐพ์ ์ค๋ค. ์๋ฌด๋๋ ์ํ ํ์ฒ๋ผ ์ ๋ํฌํ ํ ํํ์ ๊ฑด์ถ๋ฌผ์ด ์๋๋ผ์ ๊ทธ๋ฐ ๊ฒ ๊ฐ๋ค.
Semantic Segmentation
Segmentation์ ์๋ ์ ๋๋ ๋ชจ๋ธ์ด ๋ง์ผ๋๊น ๋๋์ง ์์ง๋ง, self-supervised learning ๋ง์ ๊ฒฐ๊ณผ๋ผ๋ฉด ์ ๊ธฐํ๊ธด ํ๋ค. ํ๊ฐ ๊ฒฐ๊ณผ๋ ADE20K, Cityspace ๋ฐ์ดํฐ์ ์์ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค๊ณ ํ๋ค. (SOTA ๊ฐฑ์ ์ ์๋๋ผ๋ ๋ป์ด๋ค)
Meta AI์์ Segment Anything Model (SAM)์ ์ด์ด ์๋ก์ด vision ๋ชจ๋ธ์ ๊ณต๊ฐํ๋ค. ์ต๊ทผ AI ์ ๊ณ์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ๊ต์ฅํ ์ธ๊ธฐ์๋๋ฐ, ๋น์ ๋ถ์ผ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ฌ์ธ์ ๋น์ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๋ ์ถ์ธ์ด๋ค. ์ด์ฒ๋ผ ํ๊ณ์์๋ ์ ์ ๋ ์ด๋ธ์ด ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก ์ฌ์ธ์ ๋ชจ๋ธ์ด ๊ฐ๊ด๋ฐ๋๋ฐ, ์ฐ์ ์์๋ ์ด๋ค ์ํฅ์ด ์์์ง ๊ถ๊ธํด์ง๋ค. ๊ธฐ์ ๊ฒฉ์ฐจ๋ก ์ธํด ์ฌ์ ํ ๋ ์ด๋ธ๋ ํ์ต๋ฐ์ดํฐ์ ์์กดํ๋ AI ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒ์ธ์ง, ๊ธ๋ก๋ฒ ๊ธฐ์ ์ API๋ฅผ ์ฌ์ฉํ ๊ฒ์ธ์ง, ์์ฒด ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๊ฒ์ธ์ง?