[논문 소개] DINOv2 - Self-supervised Vision Transformer | Meta AI | 레이블 데이터 없이 강력한 성능을 내는 Vision AI 모델

논문 제목 : DINOv2: Learning Robust Visual Features without Supervision
GitHub
Demo

23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다.

논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한 학습이 진행되기 때문에 명시적으로 언급되지 않는 정보가 무시된다고 한다. 제안하는 DINOv2는 self-supervised learning을 사용하기 때문에 캡션이 필요없고(의존하지 않고) 설명하기 어려운 데이터도 학습 데이터로 사용할 수 있다는 장점이 있다.

DINOv2는 레이블된 데이터에 의존하지 않고 fine-tuning 과정도 필요하지 않지만 많은 컴퓨터비전 task에서 강력한 성능을 보여주기 때문에 다양한 컴퓨터비전 task의 백본으로 사용하기 적합하다고 한다. 또한 DINOv2는 self-supervision을 사용하기 때문에 모든 이미지 모음으로 학습할 수 있고 depth estimation과 같은 이전의 접근 방법으로 할 수 없던 기능을 학습할 수 있다.

AI 모델 학습을 위해서는 방대한 양의 레이블링된 학습 데이터가 필요한데, 레이블을 생성하는 일은 시간과 비용이 굉장히 많이 소요되는 작업이다. 그런데 모델 학습에 레이블링된 데이터가 필요없지만 강력한 성능을 낸다면?

DINOv2와 같은 self-supervision 컴퓨터비전 모델은 다양한 애플리케이션에서 유용할 것이라 한다. Meta는 World Resources Institute와 협력하여 AI를 사용하여 대륙 크기의 지역에 걸쳐 나무별로 숲을 매핑하는데 성공했고, 북미의 숲에서 얻은 데이터로 학습했지만, 전 세계 다른 위치에서 높은 매핑 정확도를 보여줄 만큼 일반화 성능이 좋다고 한다.

DINOv2 데모

DINOv2는 레이블이 없는 142M개의 이미지 데이터셋으로 학습되었고, 응용 프로그램에는 depth estimation, image retrieval, semantic segmentation이 포함된다. 데모를 제공하고 있으니 한 번 알아보도록 하자.

Depth Estimation

DINOv2 모델은 in/out of distribution 데이터 모두에서 단일 이미지로 depth estimation(깊이 추정) 기능을 사용할 수 있다. Linear 모델 만으로 NYU Depth 및 SUN RGB-D 모두에서 SOTA를 달성했다고 한다. 첫 번째 예시는 메타 AI에서 제공하는 샘플 결과이며 두 번째 이미지는 강남역 부근 로드뷰 이미지로 테스트한 결과인데 꽤 좋은 성능을 보여준다.

흥미로운 점은 OOD(Out-of-Distribution Data)에서도 깊이 추정이 가능하다는 것인데, 논문의 예시를 보면 다양한 화풍의 그림에서도 배경과 객체를 잘 구별하여 깊이를 추정하는 것을 볼 수 있다.

Image Retrieval

Image Retrieval 은 대규모 아트 이미지 컬렉션에서 주어진 이미지와 유사한 미술 작품을 찾는다. 데모 사이트 예시인 에펠탑 사진은 에펠탑 그림을 잘 찾아주긴 하지만, 직접 테스트 해본 광화문 사진은 동양적인 건축물이 묘사된 작품을 찾아 준다. 아무래도 에펠탑처럼 유니크한 한 형태의 건축물이 아니라서 그런 것 같다.

Semantic Segmentation

Segmentation은 워낙 잘 되는 모델이 많으니까 놀랍진 않지만, self-supervised learning 만의 결과라면 신기하긴 하다. 평가 결과는 ADE20K, Cityspace 데이터셋에서 경쟁력 있는 결과를 보여준다고 한다. (SOTA 갱신은 아니라는 뜻이다)

Meta AI에서 Segment Anything Model (SAM)에 이어 새로운 vision 모델을 공개했다. 최근 AI 업계에서 대규모 언어 모델이 굉장한 인기였는데, 비전 분야에서도 강력한 성능의 올인원 비전 모델들이 등장하는 추세이다. 이처럼 학계에서는 점점 레이블이 없는 대규모 데이터로 올인원 모델이 각광받는데, 산업에서는 어떤 영향이 있을지 궁금해진다. 기술 격차로 인해 여전히 레이블된 학습데이터에 의존하는 AI 모델을 사용할 것인지, 글로벌 기업의 API를 사용할 것인지, 자체 모델을 개발할 것인지?

'🏛 Research > Perception' 카테고리의 다른 글

[논문 리뷰] Fast Segment Anything \| Fast SAM \| SAM의 경량화 (0)	2023.07.02
[논문 소개] TAM (Track Anything Model) \| 어떤 것이든 추적하는 Vision AI 모델 \| Sagment Anything 비디오 버전 (0)	2023.04.30
[논문 리뷰] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (0)	2022.08.09
[논문 리뷰] Deep Learning for Large-Scale Traffic-Sign Detection and Recognition / 교통 표지판 검출 (0)	2022.07.08
[논문 리뷰] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation / DeepLab v3+ / semantic segmentation의 기초 (0)	2022.05.15

'🏛 Research > Perception' 카테고리의 다른 글

티스토리툴바