본문 바로가기

🏛 Research51

[논문 소개] Drag Your GAN - 마우스 드래그로 이미지를 생성/변형하는 AI Drag Your GAN 이전의 접근 방식과 달리 Drag Your GAN은 사용자의 마우스 드래그만으로 GAN을 제어한다. 논문 저자는 누구나 픽셀의 위치를 정밀하게 제어하여 이미지를 변형할 수 있으므로 동물, 자동차, 인간, 풍경 등과 같은 다양한 범주의 포즈, 모양, 표현 및 레이아웃을 조작할 수 있다고 한다. 논문에 공개된 figure를 보면 사자의 입을 드래그하여 벌리게 하거나 다른 곳을 응시하게 할수 있고, 사람의 자세를 바꾸거나 풍경 속 산의 높이를 바꿀 수도 있다. 물론 꽤나 자연스럽게 말이다. GAN 분야에서 이미 이미지 매니폴드를 학습하여 이미지를 생성/변형하는 연구는 많았지만 이렇게 뭔가 프로덕트화(?)되어 공개된 논문은 처음 보는 것 같다. Motion supervision 단계는 .. 2023. 5. 28.

[논문 소개] TAM (Track Anything Model) | 어떤 것이든 추적하는 Vision AI 모델 | Sagment Anything 비디오 버전 Track Anything: Segment Anything Meets Videos 세상 참 빠르다. Meta AI의 SAM (Segment Anything Model)이 나온지 얼마나 됐다고 SAM을 비디오에 적용해 tracking task를 수행하는 TAM (Tracking Anything Model) 논문이 나왔다고 한다. Track-Anything은 비디오 객체 추적 및 분할을 위한 유연한 대화형 도구로 Segment Anything에서 개발되었으며 사용자 클릭을 통해서만 추적 및 세그먼트화할 항목을 지정할 수 있다. 추적하는 동안 사용자는 추적하려는 개체를 유연하게 변경하거나 모호한 부분이 있는 경우 관심 영역을 수정할 수도 있다. 이러한 특성을 통해 Track-Anything은 다음과 같은 작업.. 2023. 4. 30.

[논문 소개] DINOv2 - Self-supervised Vision Transformer | Meta AI | 레이블 데이터 없이 강력한 성능을 내는 Vision AI 모델 DINOv2 논문 제목 : DINOv2: Learning Robust Visual Features without Supervision GitHub Demo 23년 4월 Meta AI에서 self-supervised learning을 사용하여 고성능 컴퓨터비전 모델을 학습하는 새로운 방법인 DINOv2를 공개했다. LLM(Large Language Model) 학습에도 활용되는 self-supervised learning 방법은 모델 학습 시 많은 양의 레이블이 지정된 데이터가 필요하지 않기 때문에 AI 모델을 학습하는 강력하고 유연한 방법이다. 논문에 따르면 최근 몇년 동안 컴퓨터비전 작업의 표준 접근 방식이었던 이미지-텍스트를 페어로 학습하는 멀티모달 방식의 학습 방법에서는 이미지의 캡션 정보에 의존한.. 2023. 4. 29.

[오픈소스] OpenMMLab 컴퓨터비전 오픈소스 라이브러리 | 다양한 컴퓨터비전 연구 주제 OpenMMLab OpenMMLab은 학술 연구 및 산업 응용을 위한 다양한 컴퓨터비전 오픈소스 프로젝트들을 제공한다. OpenMMLab에서는 아래와 같은 장점을 가지고 있다고 설명하는데, 굉장히 많은 프로젝트와 툴이 있기 때문에 내가 써본 것은 극히 일부이지만 필요한 기능들을 편리하게 잘 구현했다는 느낌을 받았었다. 알고리즘 재구현의 어려움을 줄이기 위한 고품질 라이브러리 제공 다양한 백엔드 및 장치를 대상으로 하는 효율적인 배포 도구 제공 컴퓨터비전 연구 및 개발을 위한 견고한 기반 구축 풀스택 툴체인으로 학술 연구와 산업 응용 프로그램 간의 격차 해소 개인적으로는 Pytorch 기반이라 좋았다... OpenMMLab은 굉장히 다양한 컴퓨터비전 연구 주제에서 최신 딥러닝 모델과 고성능 코드를 제공하기.. 2023. 4. 16.

[기술 소개] 3D Object Scanning | MVS | 객체 스캐닝 | 실시간 3D 객체 복원 3D Object Scanning 3D Object Scanning은 multi-view stereo (MVS) 기술을 활용하여 객체의 3D shape을 복원하는 기술이다. 아래 영상을 보면 Niantic이라는 기업에서 Unity SDK에 빠른 non-lidar 스캔 툴을 추가하여 사용자가 객체를 실시간으로 스캔할 수 있게 한다. 스마트폰으로 객체를 다양한 각도에서 촬영하고 객체를 복원하는데 품질이 꽤 좋아보인다. 또한 RealityScan과 같은 앱을 사용하면 스마트폰으로 간단하게 3D 스캔을 경험해 볼 수도 있다. Niantic 기업의 Object Scanning 예시 RealityScan - 3D Scanning App의 결과 예시 출처 : https://sketchfab.com/3d-models.. 2023. 4. 7.

[기술 소개] Text-to-Image Generation | 이미지 생성 AI | DALL-E | GPT | dVAE Text to Image Generation Text to Image generation은 텍스트 정보를 입력으로 받아서 해당 텍스트에 해당하는 이미지를 생성하는 기술이다. 딥러닝 기술의 발전으로 인해 2010년대 중반부터 개발되기 시작해 2022년에는 OpenAI의 DALL-E 2 , Google Brain의 Imagen , StabilityAI의 Stable Diffusion 과 같은 최첨단 텍스트-이미지 모델의 출력물이 실제 사진과 사람이 그린 예술품의 품질에 접근하기 시작했다. Text to Image generation에서는 일반적으로 이러한 GAN(Generative Adversarial Networks) 모델을 텍스트와 이미지를 쌍으로 이루는 데이터셋을 학습시켜서 구현한다. 예를 들어, ".. 2023. 4. 6.

이전 1 2 3 4 5 ··· 9 다음

티스토리툴바