๋ฐ์ํ
CVPR 2023์ accpet๋ ๋ ผ๋ฌธ๋ค์ ๊ธฐ์ค์ผ๋ก ์ปดํจํฐ๋น์ ๋ถ์ผ์ ํธ๋ ๋์ ๋ํด ์ดํด ๋ณด๋ ค ํ๋ค. ๋ด๊ฐ ๋ถ์ํ ๊ฒ์ ์๋๊ณ ์๋ ํ์ด์ง๋ฅผ ์ฐธ๊ณ ํด์ ์ด ๊ธ์ด๋ ๋ ์์ธํ ๋ด์ฉ์ ์๋ฌธ์ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
- https://voxel51.com/blog/cvpr-2023-and-the-state-of-computer-vision/
CVPR 2023 ๋ถ์ ์์ฝ
- 9155๊ฑด์ ์ ์ถ๋ฌผ ์ค 2359๊ฑด์ ๋ ผ๋ฌธ ์ฑํ
- ํ๊ท ํฉ๊ฒฉ ๋ ผ๋ฌธ ์ ์์ ์๋ 5.4๋ช
- 63%์ ์ ๋ชฉ์ ๋๋ฌธ์์ด(acronyms) ์ฌ์ฉ (๋จ์ด ์๊ธ์ ๋ฐ์ ๋ง๋ ์ค์๋ง)
- Diffusion Model์ด 573% ์์น
- Multi-modal๊ณผ Cross-modal ์ด ๋ฏธ๋
- CNN์ 68% ๊ฐ์
- Mask๋ ์ด๋์๋ ์ฌ์ฉ
- ํฌ์ธํธํด๋ผ์ฐ๋๋ depth & stereo์์ native 3D๋ก ์ ํ
- ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ : ImageNet, COCO, KITTI
์์ฝ๋ ๋ด์ฉ์ ๋ณด๋ ํ์คํ generative model, NeRF, multi-modal ๋ถ์ผ๊ฐ ์ธ๊ธฐ๊ฐ ๋ง๋ค. ๋ํ CNN ๊ด๋ จ ์ฐ๊ตฌ๋ ๊ฐ์ํ๊ณ ์์ผ๋ฉฐ 2022๋ ์ ์ด์ด Transformer ๋ชจ๋ธ์ ์ฌ์ ํ ๊ฐ์ธ์ด๋ค.
CVPR 2023 ์์ธ ๋ถ์
Models
- Diffusion Models
- ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๊ณผ ๊ฐ์ diffusion ๋ชจ๋ธ์ ๋ํ ์ฐ๊ตฌ๊ฐ ๋ง์์ง.
- ๋ ธ์ด์ฆ ์ ๊ฑฐ, ์ด๋ฏธ์ง ํธ์ง ๋ฐ ์คํ์ผ ํธ๋์คํผ์๋ ์ฌ์ฉ๋จ
- Radiance Fields
- NeRF์ ๋ํ ์ธ๊ธฐ๊ฐ ๋์์ ธ radiance๋ผ๋ ๋จ์ด์ ์ฌ์ฉ์ด 80% ์ฆ๊ฐํ๊ณ NeRF์ ๊ฒฝ์ฐ 39% ์ฆ๊ฐ
- NeRF๋ ๊ฐ๋ ์ฆ๋ช ์ ๋์ด editing, application ๋ฑ์ผ๋ก ์ฐ๊ตฌ ์งํ.
- Transformers
- Transformer์ ViT์ ๊ฐ์๋ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ์ ํ์ด ์ง๋ฌ๋ค๋ ์๋ฏธ๊ฐ ์๋๋ผ 2022๋ ์ ์ด๋ค ๋ชจ๋ธ์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ง๋ฐฐ์ ์ด์๋ค๋ ๊ฒ์ ๋ปํจ
- Transformer ๋จ์ด๋ 2021๋ ์ 37๊ฐ์ ๋ ผ๋ฌธ์์, 2022๋ ์๋ 201๊ฐ์ ๋ ผ๋ฌธ์์ ์ฌ์ฉ
- Changing of the guard
- 68% ํ๋ฝํ CNN์ ์ ํธ๋๊ฐ ๋จ์ด์ง๋ ๊ฒ์ผ๋ก ๋ณด์
- CNN๊ณผ Transformer๋ฅผ ํจ๊ป ์ธ๊ธํ๋ ๋ ผ๋ฌธ ์ ๋ชฉ๋ ๋ง์์ง
Tasks
- Generative
- ๊ฐ์ง, ๋ถ๋ฅ ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ ๊ฐ์ ๊ธฐ์กด์ task๋ ์ธ๊ธฐ๋ฅผ ๋์ง ๋ชปํจ
- ํ์ง๋ง 'Editing'์ ๋ํ ์ฆ๊ฐ์จ์์ ์ ์ ์๋ฏ์ด ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์ ๋ํ ๊ด์ฌ์ด ๋์์ง๊ณ ์์
- Masks
- Mask๋ผ๋ ํค์๋๋ ์ ๋ ๋๋น 263% ์ฆ๊ฐ
- context of segmentation์์ ๋ฐ์
- ํ์ง๋ง ๋๋ค์(63%)๋ ์ค์ ๋ก 'masked'๋ ์์ ์ ์ฐธ์กฐ
- Zero vs Few
- Zero-shot ํ์ต์ transfer learning, generative ์ ๊ทผ ๋ฐฉ์, prompting ๋ฑ์ ์ํด ์ฃผ๋ชฉ ๋ฐ๊ณ ์์
- Few-shot์ ์๋ ์ ๋นํด ๊ฐ์ํ์ง๋ง ์ ๋์ ์ธ ์์น๋ Few-shot์ด Zero-shot๋ณด๋ค ๋ง์
Modalities
- Multi-modal
- ํต๊ณ๋ฅผ ๋ณด๋ฉด CV๋ถ์ผ์ NLP ๋ถ์ผ์ ๊ฒฝ๊ณ๊ฐ ์ ์ ํ๋ ค์ง๊ณ ์๋ ๊ฒ์ ๋ณผ ์ ์์
- image, video ์ ๊ฐ์ ํค์๋์ ๋น๋๋ ์๋์ ์ผ๋ก ๋ณํ์ง ์์์ง๋ง, text, language, audio ๋ฑ์ ํค์๋๋ ๊พธ์คํ ์์น
- Open, Prompt, Vocabulary ํค์๋์ ๊ธ๊ฒฉํ ์์น์ผ๋ก ์ ์ ์๋ฏ์ด ์๊ฐ ์ธ์ด ์์ ์์ ๋๋๋ฌ์ง
- Point Cloud
- 3D ์ปดํจํฐ๋น์ ์ ํ๋ฆฌ์ผ์ด์ ์ 2D ์ด๋ฏธ์ง์์ 3D ์ ๋ณด๋ฅผ ์ถ๋ก ํ๋ ๊ฒ์์ 3D ํฌ์ธํธ ํด๋ผ์ฐ๋ ๋ฐ์ดํฐ๋ฅผ ์ง์ ํ์ตํ๋ ๋ฐฉํฅ์ผ๋ก ๋ณํ๋์ด ๊ฐ๊ณ ์์
๋ฐ์ํ