'Computer Vision' 태그의 글 목록

본 글은 Vision Transformer(ViT)의 핵심 개념을 기초부터 상세하게 설명한다. ViT가 이미지를 어떻게 토큰화하고, 실제 텐서 차원이 어떻게 변하는지까지 이해하기 쉽게 정리했다. 1. Vision Transformer (ViT)Vision Transformer(ViT)는 2020년 Google Research가 발표한 모델로, 이미지를 Transformer 구조로 직접 처리하는 첫 성공 사례이다. 발표 당시만 해도 Transformer는 자연어 처리에 특화된 모델로 여겨졌기 때문에, 이미지를 언어처럼 토큰 단위로 다뤄 self-attention으로 처리한다는 발상 자체가 매우 혁신적이었다. ViT는 이미지도 문장처럼 “순서가 있는 토큰 시퀀스”로 바라볼 수 있다는 점을 보여주었고, 이후 ..

Qwen(Alibaba Cloud)에서 수준급의 오픈소스 이미지 생성 및 편집 모델을 공개하면서 화제가 되고 있다. 테크니컬 리포트가 함께 공개되었기에 살펴보고자 한다. 개인적으로는 데이터 수집 및 필터링 부분에 관심을 가지고 읽어봤다. 1. 인트로 Qwen은 새로운 이미지 생성 및 편집 모델 Qwen-Image를 공개하며 주목을 받고 있다. 이 모델은 텍스트 렌더링과 이미지 편집에서 뛰어난 성능을 보이며, 오픈소스 형태로 제공된다는 점에서 큰 의미가 있다. 특히 영어와 같은 알파벳 언어뿐만 아니라 중국어와 같은 한자 언어까지 정교하게 처리할 수 있다는 점에서 기존 모델들과 차별화된다. Qwen-Image의 핵심 기여는 크게 세 가지로 요약할 수 있다. 첫째, 정교한 텍스트 렌더링 능력이다. 단순한 한 ..

1. 새로운 이미지 생성 방식이미지 생성 도메인에서 Diffusion Model이 텍스트 기반 이미지 생성에 폭넓게 사용되며 높은 품질의 결과를 보여주고 있다. 그러나 디퓨전 모델은 기본적으로 수백~수천 번의 노이즈 제거 과정을 거쳐야 하기에 샘플링 속도가 느리다는 단점이 존재한다. 이러한 한계를 극복하기 위해 등장한 것이 바로 Flow Matching 계열의 모델들이다. 이들은 이미지를 생성할 때 노이즈를 점차 제거해가는 방식이 아니라, 처음부터 이미지와 노이즈 사이의 경로 자체를 예측하여 보다 빠르고 효율적으로 이미지를 생성하는 방식이다.이 글에서는 Flow Matching의 기본 개념부터 이를 개선한 Rectified Flow까지 기술적으로 정리한다. 2. Flow Matching (FM)2.1 개..

CVPR 2023에 accpet된 논문들을 기준으로 컴퓨터비전 분야의 트렌드에 대해 살펴 보려 한다. 내가 분석한 것은 아니고 아래 페이지를 참고해서 쓴 글이니 더 자세한 내용을 원문을 참고하길 바란다. - https://voxel51.com/blog/cvpr-2023-and-the-state-of-computer-vision/ CVPR 2023 분석 요약 - 9155건의 제출물 중 2359건의 논문 채택 - 평균 합격 논문 저자의 수는 5.4명 - 63%의 제목에 두문자어(acronyms) 사용 (단어 앞글자 따서 만든 줄임말) - Diffusion Model이 573% 상승 - Multi-modal과 Cross-modal 이 미래 - CNN은 68% 감소 - Mask는 어디에나 사용 - 포인트클라우드..

DINOv2 논문 제목 : DINOv2: Learning Robust Visual Features without Supervision GitHub Demo 23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다. 논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한..

Computer Vision (컴퓨터 비전) 컴퓨터 비전(Computer Vision)은 컴퓨터가 사람처럼 시각 정보를 인식하고 이해하도록 만드는 기술이다. 즉, 컴퓨터가 이미지나 영상을 통해 세상을 ‘보게’ 하고, 그 안에서 의미 있는 정보를 추출·분석·판단하게 하는 기술이다. 예전에는 단순히 카메라로 사진이나 영상을 찍고 저장하는 수준에 머물렀지만, 이제는 컴퓨터가 그 이미지 속에서 패턴을 찾고, 객체를 구분하며, 심지어 이미지를 새로 만들어내기까지 한다.결국 컴퓨터 비전은 인간의 시각 지각 능력을 모방하거나 넘어서는 것을 목표로 하며, 자율주행, 의료 영상, 이미지 검색, 얼굴 인식 등 다양한 분야에서 활용되고 있다. 최근에는 이미지나 영상을 ‘이해’하는 것을 넘어, 직접 ‘창조’하는 이미지 생성 ..

티스토리툴바