728x90 ๐ Research/Generative AI4 Stable Diffusion: ์ด๋ฏธ์ง ์์ฑ AI ์ดํดํ๊ธฐ AI๋ฅผ ํ์ฉํ ์ด๋ฏธ์ง ์์ฑ ๊ธฐ์ ์ ๋จ์ํ ํฝ์ ๋จ์์ ๋ณํ์ ๋์ด, ๊ณ ์ ํ ์์ ์ ์ฐฝ์์ฑ์ ๋ด์๋ด๋ ๋จ๊ณ์ ์ด๋ฅด๋ ๋ค. AI๋ ์ด์ ํ ์คํธ์ ๊ฐ์ ๊ฐ๋จํ ์กฐ๊ฑด์์๋ถํฐ ๋ณต์กํ ์ด๋ฏธ์ง ๋ํ ์ผ๊น์ง, ์ฌ์ฉ์ ์๊ตฌ์ ๋ง์ถฐ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋์๋ค. ์ด๋ฌํ ํ๋ฆ์ ์ ๋์ ์๋ ๊ธฐ์ ์ค ํ๋๊ฐ Stable Diffusion์ด๋ค. ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๋ค์ด ๊ฒช๋ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ฉฐ, ๋ค์ํ ์กฐ๊ฑด์์๋ ํจ์จ์ ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ก ์ค๊ณ๋์๋ค. Stable Diffusion์ ๊ตฌ์กฐ์ ํ์ต ๋ฐฉ์์ ์ดํดํ๋ฉด ์ด๋ฏธ์ง ์์ฑ AI๊ฐ ์ด๋ป๊ฒ ๋ฐ์ ํด์๊ณ , ์ด๋ค ๋ฐฉ์์ผ๋ก ๋ ์ฐฝ์์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ด๋์ง ์ ์ ์๋ค. Diffusion Model ? Diffusion model์ ๋ฐ์ดํฐ์ ์ ์ง์ ์ผ๋ก ๋ ธ์ด.. 2024. 11. 4. VAE (Variational Autoencoder) ์ค๋ช | VAE Pytorch ์ฝ๋ ์์ VAE (Variational Autoencoder) VAE(Variational Autoencoder)๋ ์์ฑ ๋ชจ๋ธ ์ค ํ๋๋ก, ์ฃผ๋ก ์ฐจ์ ์ถ์ ๋ฐ ์์ฑ ์์ ์ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง ์ํคํ ์ฒ์ด๋ค. VAE๋ ๋ฐ์ดํฐ์ ์ ์ฌ ๋ณ์๋ฅผ ํ์ตํ๊ณ ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋๋๋ฐ, ํนํ ์ด๋ฏธ์ง ๋ฐ ์์ฑ ์์ฑ๊ณผ ๊ฐ์ ์์ฉ ๋ถ์ผ์์ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ค. ์ด๋ฌํ VAE๋ ํฌ๊ฒ ์ธ์ฝ๋์ ๋์ฝ๋๋ผ๋ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. Autoencoder(์คํ ์ธ์ฝ๋)์ ํท๊ฐ๋ฆด ์ ์๋๋ฐ, ์คํ ์ธ์ฝ๋๋ ์ธํ์ ๋๊ฐ์ด ๋ณต์ํ ์ ์๋ latent variable z๋ฅผ ๋ง๋๋ ๊ฒ์ด ๋ชฉ์ , ์ฆ ์ธ์ฝ๋๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์ฃผ ๋ชฉ์ ์ด๊ณ , VAE์ ๊ฒฝ์ฐ ์ธํ x๋ฅผ ์ ํํํ๋ latent vector๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ฅผ ํตํด ์ธํ .. 2024. 1. 6. [๋ ผ๋ฌธ ์๊ฐ] Drag Your GAN - ๋ง์ฐ์ค ๋๋๊ทธ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑ/๋ณํํ๋ AI Drag Your GAN ์ด์ ์ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ Drag Your GAN์ ์ฌ์ฉ์์ ๋ง์ฐ์ค ๋๋๊ทธ๋ง์ผ๋ก GAN์ ์ ์ดํ๋ค. ๋ ผ๋ฌธ ์ ์๋ ๋๊ตฌ๋ ํฝ์ ์ ์์น๋ฅผ ์ ๋ฐํ๊ฒ ์ ์ดํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ณํํ ์ ์์ผ๋ฏ๋ก ๋๋ฌผ, ์๋์ฐจ, ์ธ๊ฐ, ํ๊ฒฝ ๋ฑ๊ณผ ๊ฐ์ ๋ค์ํ ๋ฒ์ฃผ์ ํฌ์ฆ, ๋ชจ์, ํํ ๋ฐ ๋ ์ด์์์ ์กฐ์ํ ์ ์๋ค๊ณ ํ๋ค. ๋ ผ๋ฌธ์ ๊ณต๊ฐ๋ figure๋ฅผ ๋ณด๋ฉด ์ฌ์์ ์ ์ ๋๋๊ทธํ์ฌ ๋ฒ๋ฆฌ๊ฒ ํ๊ฑฐ๋ ๋ค๋ฅธ ๊ณณ์ ์์ํ๊ฒ ํ ์ ์๊ณ , ์ฌ๋์ ์์ธ๋ฅผ ๋ฐ๊พธ๊ฑฐ๋ ํ๊ฒฝ ์ ์ฐ์ ๋์ด๋ฅผ ๋ฐ๊ฟ ์๋ ์๋ค. ๋ฌผ๋ก ๊ฝค๋ ์์ฐ์ค๋ฝ๊ฒ ๋ง์ด๋ค. GAN ๋ถ์ผ์์ ์ด๋ฏธ ์ด๋ฏธ์ง ๋งค๋ํด๋๋ฅผ ํ์ตํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑ/๋ณํํ๋ ์ฐ๊ตฌ๋ ๋ง์์ง๋ง ์ด๋ ๊ฒ ๋ญ๊ฐ ํ๋ก๋ํธํ(?)๋์ด ๊ณต๊ฐ๋ ๋ ผ๋ฌธ์ ์ฒ์ ๋ณด๋ ๊ฒ ๊ฐ๋ค. Motion supervision ๋จ๊ณ๋ .. 2023. 5. 28. [๊ธฐ์ ์๊ฐ] Text-to-Image Generation | ์ด๋ฏธ์ง ์์ฑ AI | DALL-E | GPT | dVAE Text to Image Generation Text to Image generation์ ํ ์คํธ ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ํด๋น ํ ์คํธ์ ํด๋นํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ธฐ์ ์ด๋ค. ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ์ธํด 2010๋ ๋ ์ค๋ฐ๋ถํฐ ๊ฐ๋ฐ๋๊ธฐ ์์ํด 2022๋ ์๋ OpenAI์ DALL-E 2 , Google Brain์ Imagen , StabilityAI์ Stable Diffusion ๊ณผ ๊ฐ์ ์ต์ฒจ๋จ ํ ์คํธ-์ด๋ฏธ์ง ๋ชจ๋ธ์ ์ถ๋ ฅ๋ฌผ์ด ์ค์ ์ฌ์ง๊ณผ ์ฌ๋์ด ๊ทธ๋ฆฐ ์์ ํ์ ํ์ง์ ์ ๊ทผํ๊ธฐ ์์ํ๋ค. Text to Image generation์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฌํ GAN(Generative Adversarial Networks) ๋ชจ๋ธ์ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ์์ผ๋ก ์ด๋ฃจ๋ ๋ฐ์ดํฐ์ ์ ํ์ต์์ผ์ ๊ตฌํํ๋ค. ์๋ฅผ ๋ค์ด, ".. 2023. 4. 6. ์ด์ 1 ๋ค์ 728x90