[Gen AI] Qwen-Image 테크니컬 리포트 분석 | T2I, TI2I | 이미지 생성 편집 모델
·
🏛 Research/Image•Video Generation
Qwen(Alibaba Cloud)에서 수준급의 오픈소스 이미지 생성 및 편집 모델을 공개하면서 화제가 되고 있다. 테크니컬 리포트가 함께 공개되었기에 살펴보고자 한다. 개인적으로는 데이터 수집 및 필터링 부분에 관심을 가지고 읽어봤다. 1. 인트로 Qwen은 새로운 이미지 생성 및 편집 모델 Qwen-Image를 공개하며 주목을 받고 있다. 이 모델은 텍스트 렌더링과 이미지 편집에서 뛰어난 성능을 보이며, 오픈소스 형태로 제공된다는 점에서 큰 의미가 있다. 특히 영어와 같은 알파벳 언어뿐만 아니라 중국어와 같은 한자 언어까지 정교하게 처리할 수 있다는 점에서 기존 모델들과 차별화된다. Qwen-Image의 핵심 기여는 크게 세 가지로 요약할 수 있다. 첫째, 정교한 텍스트 렌더링 능력이다. 단순한 한 ..
[Gen AI] Flow Matching & Rectified Flow 이해하기! | Diffusion 보다 더 빠른 생성 방식
·
🏛 Research/Image•Video Generation
1. 새로운 이미지 생성 방식이미지 생성 도메인에서 Diffusion Model이 텍스트 기반 이미지 생성에 폭넓게 사용되며 높은 품질의 결과를 보여주고 있다. 그러나 디퓨전 모델은 기본적으로 수백~수천 번의 노이즈 제거 과정을 거쳐야 하기에 샘플링 속도가 느리다는 단점이 존재한다. 이러한 한계를 극복하기 위해 등장한 것이 바로 Flow Matching 계열의 모델들이다. 이들은 이미지를 생성할 때 노이즈를 점차 제거해가는 방식이 아니라, 처음부터 이미지와 노이즈 사이의 경로 자체를 예측하여 보다 빠르고 효율적으로 이미지를 생성하는 방식이다.이 글에서는 Flow Matching의 기본 개념부터 이를 개선한 Rectified Flow까지 기술적으로 정리한다. 2. Flow Matching (FM)2.1 개..
2023년 컴퓨터비전 분야 트렌드 with CVPR 2023 | Diffusion model, NeRF, Multi-modal
·
🛠️ Engineering/AI & ML 인사이트
CVPR 2023에 accpet된 논문들을 기준으로 컴퓨터비전 분야의 트렌드에 대해 살펴 보려 한다. 내가 분석한 것은 아니고 아래 페이지를 참고해서 쓴 글이니 더 자세한 내용을 원문을 참고하길 바란다. - https://voxel51.com/blog/cvpr-2023-and-the-state-of-computer-vision/ CVPR 2023 분석 요약 - 9155건의 제출물 중 2359건의 논문 채택 - 평균 합격 논문 저자의 수는 5.4명 - 63%의 제목에 두문자어(acronyms) 사용 (단어 앞글자 따서 만든 줄임말) - Diffusion Model이 573% 상승 - Multi-modal과 Cross-modal 이 미래 - CNN은 68% 감소 - Mask는 어디에나 사용 - 포인트클라우드..
[논문 소개] DINOv2 - Self-supervised Vision Transformer | Meta AI | 레이블 데이터 없이 강력한 성능을 내는 Vision AI 모델
·
🏛 Research/Perception
DINOv2 논문 제목 : DINOv2: Learning Robust Visual Features without Supervision GitHub Demo 23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다. 논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한..
Computer Vision (컴퓨터 비전) 이 무엇일까 !?
·
📖 Fundamentals/Computer Vision
Computer Vision (컴퓨터 비전) 컴퓨터 비전(Computer Vision)은 컴퓨터가 사람처럼 시각 정보를 인식하고 이해하도록 만드는 기술이다. 즉, 컴퓨터가 이미지나 영상을 통해 세상을 ‘보게’ 하고, 그 안에서 의미 있는 정보를 추출·분석·판단하게 하는 기술이다. 예전에는 단순히 카메라로 사진이나 영상을 찍고 저장하는 수준에 머물렀지만, 이제는 컴퓨터가 그 이미지 속에서 패턴을 찾고, 객체를 구분하며, 심지어 이미지를 새로 만들어내기까지 한다.결국 컴퓨터 비전은 인간의 시각 지각 능력을 모방하거나 넘어서는 것을 목표로 하며, 자율주행, 의료 영상, 이미지 검색, 얼굴 인식 등 다양한 분야에서 활용되고 있다. 최근에는 이미지나 영상을 ‘이해’하는 것을 넘어, 직접 ‘창조’하는 이미지 생성 ..
[CV] 3D Geometry 설명
·
📖 Fundamentals/3D vision & Graphics
*자료 출처 : 다크프로그래머 https://darkpgmr.tistory.com/category/%EC%98%81%EC%83%81%EC%B2%98%EB%A6%AC Coordinate System (좌표계) 영상 geometry 에서는 월드(3D), 카메라(3D), 정규(2D), 픽셀(2D) 4개의 좌표계가 존재합니다. - 월드 좌표계 객체의 위치를 표현할 때 기준으로 삼는 좌표계로 카메라 좌표계와 단위를 맞춰야 하고 위(P)와 같이 표현할 수 있습니다. - 카메라 좌표계 카메라를 기준으로 한 좌표계이며, 아래첨자 c 를 사용하여 위와 같이 표현합니다. - 픽셀 좌표계 영상 좌표계라고도 불리며 이미지의 왼쪽 위를 원점으로 오른쪽 방향을 x 증가 방향, 아래 방향을 y 증가 방향으로 합니다. 픽셀 좌표계의..