Computer Vision (컴퓨터 비전) 이 무엇일까 !?

Computer Vision (컴퓨터 비전)

컴퓨터 비전(Computer Vision)은 컴퓨터가 사람처럼 시각 정보를 인식하고 이해하도록 만드는 기술이다. 즉, 컴퓨터가 이미지나 영상을 통해 세상을 ‘보게’ 하고, 그 안에서 의미 있는 정보를 추출·분석·판단하게 하는 기술이다. 예전에는 단순히 카메라로 사진이나 영상을 찍고 저장하는 수준에 머물렀지만, 이제는 컴퓨터가 그 이미지 속에서 패턴을 찾고, 객체를 구분하며, 심지어 이미지를 새로 만들어내기까지 한다.

결국 컴퓨터 비전은 인간의 시각 지각 능력을 모방하거나 넘어서는 것을 목표로 하며, 자율주행, 의료 영상, 이미지 검색, 얼굴 인식 등 다양한 분야에서 활용되고 있다. 최근에는 이미지나 영상을 ‘이해’하는 것을 넘어, 직접 ‘창조’하는 이미지 생성 AI가 주목받고 있다.

기업에서 관련 직무를 찾으면 보통 ‘Computer Vision Engineer (AI/ML)’, 혹은 ‘AI/ML Engineer (Vision)’과 같이 표기된다. 어디에 중점을 두느냐에 따라 명칭은 조금씩 다르지만, 대부분 유사한 역할을 수행한다.

컴퓨터 비전의 기술의 원리

컴퓨터가 이미지를 이해하는 방식은 생각보다 기계적이다. 이미지란 결국 수많은 숫자(픽셀)들의 배열이다. 컴퓨터는 이 픽셀 값을 분석해 특정 패턴을 찾고, 그 패턴이 의미하는 바를 학습한다. 예를 들어 얼굴 인식은 수많은 얼굴 이미지를 보여주며 “이건 눈, 이건 코”라고 가르친다. 그러면 컴퓨터는 새로운 얼굴을 볼 때 “이게 눈이고 저게 코구나”라고 인식할 수 있게 된다.

Image Classification (이미지 분류)

이미지 분류는 주어진 이미지를 사전에 정의된 클래스 중 하나로 분류하는 기술이다. 개와 고양이를 구분하거나 음식 종류를 식별하는 작업이 대표적이다. 보통 컴퓨터 비전과 딥러닝을 처음 공부할 때 접하게 된다.

Object Detection & Tracking (객체 검출 및 추적)

객체 검출은 이미지나 영상에서 특정 객체를 찾아내 위치를 표시하는 기술이다. 검출된 객체를 연속된 프레임에서 따라가는 것이 객체 추적이다. 자율주행, 보안, 스포츠 분석, 증강현실 등에서 널리 사용된다. YOLO, Faster R-CNN, DETR 같은 모델들이 대표적이다.

Image Segmentation (이미지 분할)

이미지 분할은 이미지 속 픽셀을 단위로 나누어 객체를 구분하는 기술이다. 배경과 전경을 나누거나 세밀하게 영역을 구분할 때 사용된다. Semantic Segmentation, Instance Segmentation이 주요 방법이며 자율주행, 의료 영상 분석, 로봇 비전 등에 활용된다.

Medical Image Analysis (의료 영상 분석)

의료 영상 분석은 MRI, CT 같은 의료 이미지를 분석해 질병을 진단하거나 치료 계획을 수립하는 데 사용된다. 암 조기 진단, 병변 탐지, 장기 분할 등에 활용된다.

Human Pose Estimation (휴먼 포즈 추정)

휴먼 포즈 추정은 사람의 관절 위치(키포인트)를 찾아 신체 자세를 분석하는 기술이다. 홈 트레이닝, 스포츠 분석, 모션 캡처, 게임 인터랙션 등에서 활용된다.

Action Recognition (행동 인식)

행동 인식은 영상에서 사람의 행동을 인식하고 분류하는 기술이다. 감시 시스템, 헬스케어, 스포츠 중계, 인간-로봇 상호작용 등에 쓰인다.

Depth Estimation (깊이 추정)

깊이 추정은 2D 이미지나 영상에서 각 픽셀의 깊이를 추정해 3D 정보를 얻는 기술이다. 자율주행, AR, 로봇 비전에서 중요하다.

3D Reconstruction (3D 복원)

3D 복원은 여러 각도의 이미지나 영상을 바탕으로 장면이나 객체의 3D 모델을 만드는 기술이다. 문화재 복원, 게임, 영화, VR 등에서 활용된다.

Super Resolution (초해상도)

초해상도는 저해상도 이미지를 고해상도로 변환해 품질을 높이는 기술이다. 세부 정보를 복원하는 데 쓰이며, 게임, 의료, 웹툰, 범죄 수사 등 다양한 분야에서 활용된다.

Image Generation (이미지 생성)

이미지 생성은 주어진 조건이나 임의의 입력으로 새로운 이미지를 만들어내는 기술이다. 예술, 디자인, 데이터 증강, 이미지 변환 등에서 활발히 사용되며 최근에는 자연스러운 동영상 생성까지 가능해졌다.

우리가 일상에서 접하는 컴퓨터 비전 기술은 이 정도만 해도 상당히 폭넓다. 그러나 연구 분야에서는 이보다 훨씬 더 기초적이고 다양한 주제가 다뤄진다. 컴퓨터 비전은 인간의 시각 능력을 기계에 부여해 이미지와 영상을 이해하고 분석하는 강력한 도구이다. AI 기술의 발전과 함께 앞으로 더 많은 산업에서 컴퓨터 비전이 활용될 것이다.

컴퓨터 비전이나 AI 관련 공부, 실습을 해보고 싶다면 내가 만든 학습용 레포지토리 Vision-AI-Tutorials를 참고해 보길 바란다. 이 글이 컴퓨터 비전의 개념과 주요 기술을 이해하는 데 도움이 되었기를 바란다. 더 궁금한 점이 있다면 언제든지 질문해 주길 바란다.

GitHub - ldj7672/Vision-AI-Tutorials: Computer Vision & AI를 쉽게 배우고 실습할 수 있는 예제 모음입니다.

Computer Vision & AI를 쉽게 배우고 실습할 수 있는 예제 모음입니다. Contribute to ldj7672/Vision-AI-Tutorials development by creating an account on GitHub.

github.com

'📖 Fundamentals > Computer Vision' 카테고리의 다른 글

[객체 검출] RPN이 무엇일까? \| 객체 검출에서 후보 영역을 생성하는 네트워크 \| Region Proposal Network 설명 (3)	2023.11.25
[객체 검출] NMS가 무엇일까? \| 객체 검출에서 겹치는 bbox를 제거하는 방법 \| Non-Maximum Suppression 설명 (1)	2023.11.25
[CV] JPEG, MPEG : 기초적인 영상 압축 기법 (0)	2022.05.14
[CV] 카메라 캘리브레이션 & 카메라 파라미터 \| 2D 이미지와 3D 월드 간의 관계를 모델링하는 방법 (0)	2022.03.28
[CV] Scale Invariant Feature Transform (SIFT) : 영상의 스케일에 불변한 Feature (0)	2022.03.23

컴퓨터 비전의 기술의 원리

Image Classification (이미지 분류)

Object Detection & Tracking (객체 검출 및 추적)

Image Segmentation (이미지 분할)

Medical Image Analysis (의료 영상 분석)

Human Pose Estimation (휴먼 포즈 추정)

Action Recognition (행동 인식)

Depth Estimation (깊이 추정)

3D Reconstruction (3D 복원)

Super Resolution (초해상도)

Image Generation (이미지 생성)

'📖 Fundamentals > Computer Vision' 카테고리의 다른 글

티스토리툴바