[기술 소개] Text-to-Image Generation | 이미지 생성 AI | DALL-E | GPT | dVAE
·
🏛 Research/Generative AI
Text to Image Generation Text to Image generation은 텍스트 정보를 입력으로 받아서 해당 텍스트에 해당하는 이미지를 생성하는 기술이다. 딥러닝 기술의 발전으로 인해 2010년대 중반부터 개발되기 시작해 2022년에는 OpenAI의 DALL-E 2 , Google Brain의 Imagen , StabilityAI의 Stable Diffusion 과 같은 최첨단 텍스트-이미지 모델의 출력물이 실제 사진과 사람이 그린 예술품의 품질에 접근하기 시작했다. Text to Image generation에서는 일반적으로 이러한 GAN(Generative Adversarial Networks) 모델을 텍스트와 이미지를 쌍으로 이루는 데이터셋을 학습시켜서 구현한다. 예를 들어, "..
[논문 리뷰] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
·
🏛 Research/Detection & Segmentation
본 논문은 NeurIPS 2021 에 공개되었고, 심플하고 강력한 semantic segmentation task 용 Transformer 인 SegFormer 를 제안하는 논문입니다. Abstract본 논문에서는 효율적인 Segmentation task 수행을 위한 간단하고 효율적이면서 강력한 semantic segmentation 프레임워크인 SegFormer 를 제안합니다. SegFormer 는 1) multi-scale feature 를 추출하는 새로운 hierarchically structured Transformer encoder 로 구성되고, positional encoding이 필요하지 않기 때문에 테스트 이미지의 해상도가 학습 이미지의 해상도와 다를 때 성능이 저하되는 positional..