[논문 리뷰] Fast Segment Anything | Fast SAM | SAM의 경량화

[Meta AI] SAM (Segment Anything Model) 사용 방법 | 모든 객체를 분할하는 Vision AI 모델

SAM (Segment Anything Model) Meta 에서 SAM (Segment Anything Model) 이라는 어떤 것이든 분할할 수 있는 모델을 공개했다. 논문 제목 자체가 'Segment Anything' 인데 굉장히 자신감 넘치는 워딩이다. 간단한 설명을

mvje.tistory.com

Meta AI의 Segment Anything Model (SAM)이 공개된지 얼마나 됐다고 벌써 Fast SAM이라는 속도가 향상된 버전의 SAM이 공개되었다.

빅테크 기업에서 혁신적인 AI 모델을 지속적으로 공개하고, 오픈소스 협회나 대학교, 기업 등에서 빅테크 기업의 AI 모델을 응용한 다양한 AI 모델과 기술들이 빠르게 쏟아져 나오고 있다.

SAM은 iamge segmentation, caption, editing과 같은 고급 작업의 기초 단계가 되고 있지만, 막대한 계산 비용이 발생한다는 단점이 있다. 계산은 주로 고해상도 입력의 transformer 아키텍처에서 나온다. 본 논문에서는 SAM과 비슷한 성능으로 속도 향상 대안을 제안한다. 기존 task를 segment 생성 및 프롬프팅으로 재구성하면 instance segmentation branch가 있는 일반 CNN detector로 이 task를 잘 수행할 수 있다고 한다. 본 논문에서 제안하는 FastSAM을 사용하면 SAM보다 50배 빠르지만 SAM과 비슷한 성능을 얻을 수 있다고 한다.

FastSAM은 AIS(All-instance segmentation)와 PGS(Prompt-Guided Selection)으로 나뉜다. 앞 단계는 basis이고 두 번째 단계는 task 중심의 후처리 단계라고 한다.

제안하는 FastSAM은 YOLACT 방법을 활용하는 instance segmentation branch가 있는 YOLOv8-seg를 기반으로 이미지의 모든 객체 또는 영역을 분할한다. 그런 다음 다양한 프롬프트를 사용하여 관심있는 특정 객체를 식별한다. 주로 point, box, text 프로프트를 활용하고, text의 경우 CLIP를 기반으로 한다.

또한 SAM에서 사용한 SA-1B 데이터셋의 2%만으로 CNN detector를 학습하여 SAM과 비슷한 성능을 달성하고 계산량은 크게 감소한다.

더 자세한 내용은 논문을 읽어보면 알 수 있고, 주된 제안점은 Segment Anything 작업을 위해 transformer가 아닌 경량화된 CNN 기반의 아키텍처를 사용하여 성능은 유지하고 계산량은 크게 줄였다는 것이다. 이를 통해 복잡한 비전 작업에서 경량 CNN 모델의 활용 가능성을 제시한다.

segmentation 모델 설계 시 경량화 방법을 참고하기에 좋은 논문이라는 생각이 든다.

모델 아키텍처를 조금 더 자세히 살펴보면...

YOLOv8 아키텍처는 YOLOv5에서 발전되어 YOLOX, YOLOv6, YOLOv7 의 주요 설계 방법을 통합된 형태이다. YOLOv8의 백본 네트워크와 neck 모듈은 YOLOv5의 C3 모듈을 C2f 모듈로 대체하고, 업데이트된 헤드 모듈은 anchor-based에서 anchor-free로 전환된 형태라고 한다.

실험 결과

실험 결과는 살펴보면 SAM에 비해 running speed가 확실히 빨라졌지만 성능은 비슷한 것을 확인할 수 있다.

또한 anomaly detection, salient object segmentation, building extracting 등 다양한 task의 시각화된 결과가 공유되어 있다.

'🏛 Research > Perception' 카테고리의 다른 글

[Object Detection] 객체 검출 모델 (1) : RCNN, SPPNet (0)	2024.08.11
[Object Detection] DETR 모델 이해하기! \| End-to-end 객체 검출 모델 (0)	2024.08.10
[논문 소개] TAM (Track Anything Model) \| 어떤 것이든 추적하는 Vision AI 모델 \| Sagment Anything 비디오 버전 (0)	2023.04.30
[논문 소개] DINOv2 - Self-supervised Vision Transformer \| Meta AI \| 레이블 데이터 없이 강력한 성능을 내는 Vision AI 모델 (0)	2023.04.29
[논문 리뷰] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (0)	2022.08.09

'🏛 Research > Perception' 카테고리의 다른 글

티스토리툴바