[논문 리뷰] Feature Pyramid Networks for Object Detection / FPN / 객체의 스케일에 invariant한 네트워크

2022. 1. 13. 00:40·🏛 Research/Detection & Segmentation
반응형

Object detection 뿐만 아니라 segmentation 분야에서도 자주 쓰이는 FPN(Feature Pyramid Network) 구조를 설명합니다.


FPN(Feature Pyramid Network) 

 

Object detection과 segmentation 분야에서는 object를 scale invariant 하게 잘 구별하는 것이 중요합니다. 이전 연구에서는 input 이미지의 크기를 바꿔가며 object를 찾았지만 이는 메모리와 계산량 측면에서 낭비적입니다.

그에 비해 FPN은 효율적으로 object scale에 invariant한 feature들을 추출할 수 있는 네트워크입니다.

 

 

좌 : 여러가지 prediction 방법, 우 : FPN

 

논문에서 말하는 'pyramid' 라는 단어는 서로 다른 resolution의 feature를 쌓아올린 형태를 뜻하고, feature의 resolution은 feature의 spatial size를 뜻합니다. Encoder의 layer별 output은 feature size가 모두 다르지만 모두 input image에 대한 embedding이므로 feature의 spatial size가 클수록 high-resolution이지만 embedding이 덜 되었기 때문에 low-level feature입니다. (spatial size가 작으면 반대로-)

 

FPN은 encoder에서 단계별로 서로 다른 resolution을 가지는 feature들을 추출하고(C2, C3, C4, C5), decoder의 가장 상위 layer에서부터 거꾸로 내려오면서 동일한 resolution을 가지는 encoder output feature와 합쳐준 뒤 prediction을 수행합니다. Decoder의 각 level에서 독립적으로 feature를 추출하여 object를 탐지하게 되는데, high-level의 이미 계산된 feature를 재사용(upsampling해서)하므로 multi scale feature들을 효율적으로 추출할 수 있다. 

 

Feature 를 합치는 방법은 encoder에서 추출한 feature는 1x1 conv로 channel을 decoder output 과 맞춰주고 decoder output은 spatial size를 encoder output 과 동일하게 맞추기 위해 nearest neighbor upsampling을 해준뒤 element-wise로 더해줍니다. 다시 말해 encoder feature와 decoder feature의 feature size를 맞춰준 뒤 더해주는 것입니다. 그 뒤에 그림에는 없지만 final feature map(P2, P3, P4, P5)을 생성하기 위해 각각의 합쳐진 feature에 3x3 convolution 을 해줍니다. 

 

생성된 final feature map으로 각각 prediction 할 수도 있고, final feature map들을 합쳐서(concat) 한번에 prediction을 수행할 수도 있습니다.

반응형

'🏛 Research > Detection & Segmentation' 카테고리의 다른 글

[논문 리뷰] FaPN: Feature-aligned Pyramid Network for Dense Image Prediction  (0) 2022.01.19
[간단 설명] Semi-Supervised Semantic Segmentation / Segmentation에서 unlabeled 데이터를 사용하여 학습하는 방법  (0) 2022.01.13
[논문 리뷰] Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis / RGB-D 영상에서의 segementation  (0) 2022.01.12
[논문 리뷰] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling  (0) 2021.12.05
[논문 리뷰] Unified Perceptual Parsing for Scene Understanding / UperNet / Multi-task learning  (0) 2021.12.04
'🏛 Research/Detection & Segmentation' 카테고리의 다른 글
  • [논문 리뷰] FaPN: Feature-aligned Pyramid Network for Dense Image Prediction
  • [간단 설명] Semi-Supervised Semantic Segmentation / Segmentation에서 unlabeled 데이터를 사용하여 학습하는 방법
  • [논문 리뷰] Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis / RGB-D 영상에서의 segementation
  • [논문 리뷰] Pyramid Scene Parsing Network / PSPNet / Pyramid Pooling
뭅즤
뭅즤
AI 기술 블로그
    반응형
  • 뭅즤
    CV DOODLE
    뭅즤
  • 전체
    오늘
    어제
  • 공지사항

    • ✨ About Me
    • 분류 전체보기 (198)
      • 📖 Fundamentals (33)
        • Computer Vision (9)
        • 3D vision & Graphics (6)
        • AI & ML (15)
        • NLP (2)
        • etc. (1)
      • 🏛 Research (64)
        • Deep Learning (7)
        • Image Classification (2)
        • Detection & Segmentation (17)
        • OCR (7)
        • Multi-modal (4)
        • Generative AI (6)
        • 3D Vision (2)
        • Material & Texture Recognit.. (8)
        • NLP & LLM (11)
        • etc. (0)
      • 🌟 AI & ML Tech (7)
        • AI & ML 인사이트 (7)
      • 💻 Programming (85)
        • Python (18)
        • Computer Vision (12)
        • LLM (4)
        • AI & ML (17)
        • Database (3)
        • Apache Airflow (6)
        • Docker & Kubernetes (14)
        • 코딩 테스트 (4)
        • C++ (1)
        • etc. (6)
      • 💬 ETC (3)
        • 책 리뷰 (3)
  • 링크

  • 인기 글

  • 태그

    3D Vision
    AI
    Image Classification
    프롬프트엔지니어링
    OCR
    LLM
    Python
    컴퓨터비전
    Computer Vision
    객체 검출
    airflow
    VLP
    도커
    pytorch
    pandas
    segmentation
    객체검출
    nlp
    multi-modal
    딥러닝
    OpenCV
    OpenAI
    material recognition
    object detection
    Text recognition
    CNN
    GPT
    파이썬
    ChatGPT
    deep learning
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
뭅즤
[논문 리뷰] Feature Pyramid Networks for Object Detection / FPN / 객체의 스케일에 invariant한 네트워크
상단으로

티스토리툴바