본문 바로가기
728x90

Computer Vision15

이미지 분류와 객체 검출의 장단점 | 이미지 분류 vs 객체 검출 영상을 이해하는 두 가지 주요 접근 방식은 이미지 분류와 객체 검출(감지)이다. 객체 검출은 이미지 내에서 여러 객체를 식별하고 위치를 파악할 수 있지만, 이미지 분류는 전체 이미지에 단일 레이블 또는 범주를 예측하는 데 중점을 둔다는 차이가 있다. 카테고리를 분류하는 classification에 위치를 파악하는 localization 기능이 추가된 것이 detection이기 때문에 기본적으로 객체 검출이 이미지 분류보다 더 많은 정보를 제공하는 기술이다. 얼핏 보기에는 객체 검출이 더 좋아보이지만, 이미지 분류 기술이 실용성과 효율성 측면에서 객체 검출을 능가하는 상황도 존재한다. 객체 검출과 이미지 분류 중 적절한 기술을 선택하기 위해 어떤점들을 고려하면 좋을지 알아보도록 하자. Single-Obje.. 2023. 6. 30.
적절한 딥러닝 모델을 결정하는 방법 | 문제의 난이도, 컴퓨팅 리소스, 실시간성, 작업별 요구사항, pre-trained model, 해석/설명 가능성 컴퓨터비전과 AI 분야는 다양한 task에 대한 논문과 코드들이 공개되어 있기에 딥러닝 알고리즘을 사용하는 것은 큰 어려움이 없다. 하지만 문제는 수많은 딥러닝 알고리즘 중에 어떤 것을 사용해야 하냐는 것이다. 물론 최신 알고리즘이 우수한 성능을 가지겠지만, 해당 연구가 초점을 맞추는 것에 따라 알고리즘의 장단점이 서로 달라진다. 정확도, 실시간성(속도), 경량화, 학습 데이터, 학습 방법, 사용성 등 다양한 부분에 초점을 맞춘 연구들이 존재한다. 때문에 우리는 우리가 풀어야할 문제의 특성을 파악하고 그에 적합한 딥러닝 알고리즘을 찾는 것이 중요하다. 이 포스팅에서는 컴퓨터비전 애플리케이션을 위한 딥러닝 알고리즘 선택에 영향을 미치는 요인을 살펴보려 한다. 문제의 난이도 문제의 난이도는 적절한 딥러닝 알.. 2023. 6. 29.
2023년 컴퓨터비전 분야 트렌드 with CVPR 2023 | Diffusion model, NeRF, Multi-modal CVPR 2023에 accpet된 논문들을 기준으로 컴퓨터비전 분야의 트렌드에 대해 살펴 보려 한다. 내가 분석한 것은 아니고 아래 페이지를 참고해서 쓴 글이니 더 자세한 내용을 원문을 참고하길 바란다. - https://voxel51.com/blog/cvpr-2023-and-the-state-of-computer-vision/ CVPR 2023 분석 요약 - 9155건의 제출물 중 2359건의 논문 채택 - 평균 합격 논문 저자의 수는 5.4명 - 63%의 제목에 두문자어(acronyms) 사용 (단어 앞글자 따서 만든 줄임말) - Diffusion Model이 573% 상승 - Multi-modal과 Cross-modal 이 미래 - CNN은 68% 감소 - Mask는 어디에나 사용 - 포인트클라우드.. 2023. 5. 28.
[논문 소개] DINOv2 - Self-supervised Vision Transformer | Meta AI | 레이블 데이터 없이 강력한 성능을 내는 Vision AI 모델 DINOv2 논문 제목 : DINOv2: Learning Robust Visual Features without Supervision GitHub Demo 23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다. 논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한.. 2023. 4. 29.
Computer Vision (컴퓨터 비전) 이 무엇일까 !? Computer Vision (컴퓨터 비전) 컴퓨터 비전(Computer Vision)은 말 그대로 컴퓨터가 '시각'을 가지게 하는 기술이에요. 쉽게 말해, 우리가 눈으로 세상을 보는 것처럼, 컴퓨터가 이미지나 동영상을 통해 주변 환경을 인식하고 이해할 수 있도록 만드는 기술이죠. 예전에는 단순히 카메라로 찍은 사진이나 영상을 저장하고 보는 것에 그쳤다면, 이제는 컴퓨터가 그 이미지에서 정보를 추출해 내고, 분석하고, 판단까지 할 수 있게 되었어요. 아, 이제는 컴퓨터가 이미지를 생성하기도 하죠! 이러한 컴퓨터 비전은 결론적으로 컴퓨터가 인간의 시각적 지각 능력을 모방하고 인간을 뛰어넘는 시각적 지능을 갖는 것을 지향하며 자율 주행, 의료 영상, 이미지 검색, 얼굴 인식 등 다양한 분야에서 활용되고 있어.. 2023. 4. 7.
[CV] 3D Geometry 설명 *자료 출처 : 다크프로그래머 https://darkpgmr.tistory.com/category/%EC%98%81%EC%83%81%EC%B2%98%EB%A6%AC Coordinate System (좌표계) 영상 geometry 에서는 월드(3D), 카메라(3D), 정규(2D), 픽셀(2D) 4개의 좌표계가 존재합니다. - 월드 좌표계 객체의 위치를 표현할 때 기준으로 삼는 좌표계로 카메라 좌표계와 단위를 맞춰야 하고 위(P)와 같이 표현할 수 있습니다. - 카메라 좌표계 카메라를 기준으로 한 좌표계이며, 아래첨자 c 를 사용하여 위와 같이 표현합니다. - 픽셀 좌표계 영상 좌표계라고도 불리며 이미지의 왼쪽 위를 원점으로 오른쪽 방향을 x 증가 방향, 아래 방향을 y 증가 방향으로 합니다. 픽셀 좌표계의.. 2022. 4. 4.
728x90