"컴퓨터 비전"에 대해 알아보자 | Computer Vision & AI & Deep Learning

📖 Theory/Computer Vision

"컴퓨터 비전"에 대해 알아보자 | Computer Vision & AI & Deep Learning

뭅즤 2023. 4. 7. 11:46

Computer Vision (컴퓨터 비전)

컴퓨터 비전(Computer Vision)은 말 그대로 컴퓨터가 '시각'을 가지게 하는 기술이에요. 쉽게 말해, 우리가 눈으로 세상을 보는 것처럼, 컴퓨터가 이미지나 동영상을 통해 주변 환경을 인식하고 이해할 수 있도록 만드는 기술이죠. 예전에는 단순히 카메라로 찍은 사진이나 영상을 저장하고 보는 것에 그쳤다면, 이제는 컴퓨터가 그 이미지에서 정보를 추출해 내고, 분석하고, 판단까지 할 수 있게 되었어요. 아, 이제는 컴퓨터가 이미지를 생성하기도 하죠!

이러한 컴퓨터 비전은 결론적으로 컴퓨터가 인간의 시각적 지각 능력을 모방하고 인간을 뛰어넘는 시각적 지능을 갖는 것을 지향하며 자율 주행, 의료 영상, 이미지 검색, 얼굴 인식 등 다양한 분야에서 활용되고 있어요. 또한 요즘은 이미지를 생성하고 편집하는 이미지 생성형 AI가 큰 관심을 받고 있어요.

직무 관점에서 보면 기업의 JD(Job Description)에 'Computer Vision Engineer (AI/ML)'처럼 표기하기도 하고 'AI/ML Engineer (Vision)' 처럼 표기하기도 한다. 물론 어디에 조금 더 초점을 맞춘 직무인지에 따라 표기명도 달라질 수 있지만, 대부분 상기 두 직무는 유사한 업무를 맡게 된다.

컴퓨터 비전의 기술의 원리

그렇다면 컴퓨터 비전이 어떻게 작동하는지 궁금하지 않으세요? 컴퓨터가 이미지를 이해하는 방식은 조금 복잡한데요. 컴퓨터는 사실 이미지를 수많은 숫자, 즉 픽셀로 이해해요. 이 픽셀들을 분석해서 특정 패턴을 찾아내고, 이 패턴이 의미하는 것을 학습하는 거죠. 예를 들어, 얼굴 인식에서는 수많은 얼굴 사진을 컴퓨터에게 보여주고, "이건 눈, 이건 코"처럼 가르쳐줘요. 그러면 컴퓨터가 나중에 새로운 얼굴을 봤을 때 "아, 이게 눈이고 코구나!"라고 이해할 수 있게 되는 거예요.

지금부터는 컴퓨터 비전의 다양한 기술들에 대해 알아 볼게요!

Image Classification (이미지 분류)

이미지 분류는 주어진 이미지를 사전에 정의된 클래스 중 하나로 분류하는 기술이에요. 예를 들어, 개와 고양이를 분류하거나, 다양한 음식 종류를 식별하는 작업이 이미지 분류에 해당합니다. 컴퓨터비전, CNN, 딥러닝을 처음 공부할 때 접하게 되는 기술이죠.

Object Detection & Tracking (객체 검출 및 추적)

객체 검출은 이미지나 영상에서 특정 객체를 식별하고 그 위치를 알아내는 기술이에요. 이렇게 검출된 객체를 연속된 프레임에서 추적하는 것이 객체 추적입니다. 비전 기술에서 가장 많이 사용되는 기술 중 하나가 객체 검출이라고 볼 수 있는데요. 자율 주행, 보안, 스포츠 분석, 교통 통제, 증강 현실 등 정말 다양한 곳에서 사용됩니다. YOLO, Faster R-CNN, DETR 같은 모델들이 대표적입니다.

Image Segmentation (이미지 분할)

이미지 분할은 이미지에서 픽셀 단위로 객체를 구분하는 기술이에요. 특히, 이미지를 세밀하게 분석하거나, 배경과 전경을 분리하는 작업에 사용됩니다. Semantic Segmentation과 Instance Segmentation이 대표적인 유형입니다. 객체 검출과 더불어 굉장히 다양한 곳에서 활용되는 기술로 자율 주행, 의료, 로보틱스 등에 사용됩니다.

Medical Image Analysis (의료 영상 분석)

의료 영상 분석은 MRI, CT 스캔 등과 같은 의료 이미지를 분석하여 질병을 진단하거나 치료 계획을 세우는 데 활용돼요. 특히, 암 조기 진단, 장기 분할, 병변 탐지 등에 사용됩니다.

Human Pose Estimation (휴먼 포즈 추정)

휴먼 포즈 추정은 사람의 관절 등의 키포인트를 추정하여 신체의 자세를 분석하는 기술이에요. 이 기술은 홈 트레이닝, 스포츠 동작 분석, 모션 캡처, 게임 인터랙션 등에서 활용됩니다.

Action Recognition (행동 인식)

행동 인식은 영상에서 사람의 행동을 인식하고 분류하는 기술입이에요. 감시 시스템, 헬스케어, 스포츠 중계, 인간-로봇 상호작용 등 다양한 분야에서 사용되고 있어요.

Depth Estimation (깊이 추정)

깊이 추정은 2D 이미지나 영상에서 각 픽셀의 깊이 정보를 추정하여 3D 정보를 얻는 기술이에요. 이는 자율 주행, 증강 현실(AR), 로봇 비전 등에서 중요한 역할을 합니다.

3D Reconstruction (3D 복원)

3D 복원은 여러 다시점 이미지나 동영상으로부터 객체나 장면의 3D 모델을 생성하는 기술이에요. 문화재 복원, 게임, 영화 제작, 가상 현실(VR) 등에서 활용됩니다.

Super Resolution (초해상도)

초해상도는 저해상도 이미지를 고해상도로 변환하는 기술이에요. 이미지 품질을 향상시키고, 세부 정보를 복원하는 데 사용되며, 최근에는 딥러닝 기반의 방법들이 주로 사용됩니다. 게임, 웹툰, 의료, 범죄 수사 등에 활용되고 있습니다

Image Generation (이미지 생성)

이미지 생성은 주어진 조건이나 임의의 입력을 바탕으로 새로운 이미지를 생성하는 기술이에요. 아트 생성, 데이터 증강, 이미지 변환 등 다양한 응용이 가능합니다. 최근에는 문화, 예술, 디자인, 개인 창작 등 다양한 분야에서 활용되고 있으며 품질 또한 굉장히 향상 되었어요. 특히 최근에는 자연스러운 동영상까지 생성하는 단계까지 이르렀답니다.

산업에서 또는 우리가 살아가며 만날 수 있는 컴퓨터비전 기술은 거의다 설명드린 것 같은데요. 사실 학계에서의 컴퓨터 비전의 영역은 훨씬 더 다양합니다. 아주 fundamental 한 것부터, 응용 기술까지 다양해요.

컴퓨터 비전은 인간의 시각 능력을 기계에 부여하여 이미지와 영상을 이해하고 분석하는 강력한 도구에요. 최근에는 AI 기술이 발전하며 다양한 산업 분야에서 컴퓨터 비전 기술이 활용되고 있는 추세에요. 이번 글을 통해 컴퓨터 비전의 기본 개념과 주요 기술들을 이해하는 데 도움이 되었길 바랍니다. 비전 기술에 대해 더 궁금하다면 댓글이나 연락주세요!