๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90

๐Ÿ› Research/Generative AI4

Stable Diffusion: ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI ์ดํ•ดํ•˜๊ธฐ AI๋ฅผ ํ™œ์šฉํ•œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ธฐ์ˆ ์€ ๋‹จ์ˆœํ•œ ํ”ฝ์…€ ๋‹จ์œ„์˜ ๋ณ€ํ˜•์„ ๋„˜์–ด, ๊ณ ์œ ํ•œ ์˜ˆ์ˆ ์  ์ฐฝ์˜์„ฑ์„ ๋‹ด์•„๋‚ด๋Š” ๋‹จ๊ณ„์— ์ด๋ฅด๋ €๋‹ค. AI๋Š” ์ด์ œ ํ…์ŠคํŠธ์™€ ๊ฐ™์€ ๊ฐ„๋‹จํ•œ ์กฐ๊ฑด์—์„œ๋ถ€ํ„ฐ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ๊นŒ์ง€, ์‚ฌ์šฉ์ž ์š”๊ตฌ์— ๋งž์ถฐ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ๋ฆ„์˜ ์„ ๋‘์— ์žˆ๋Š” ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜๊ฐ€ Stable Diffusion์ด๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ๋“ค์ด ๊ฒช๋˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์กฐ๊ฑด์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ๋‹ค. Stable Diffusion์˜ ๊ตฌ์กฐ์™€ ํ•™์Šต ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋ฉด ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ•ด์™”๊ณ , ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ๋” ์ฐฝ์˜์ ์ธ ๊ฒฐ๊ณผ๋ฌผ์„ ๋งŒ๋“ค์–ด๋‚ด๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Diffusion Model ? Diffusion model์€ ๋ฐ์ดํ„ฐ์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด.. 2024. 11. 4.
VAE (Variational Autoencoder) ์„ค๋ช… | VAE Pytorch ์ฝ”๋“œ ์˜ˆ์‹œ VAE (Variational Autoencoder) VAE(Variational Autoencoder)๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ์ฃผ๋กœ ์ฐจ์› ์ถ•์†Œ ๋ฐ ์ƒ์„ฑ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜์ด๋‹ค. VAE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ํŠนํžˆ ์ด๋ฏธ์ง€ ๋ฐ ์Œ์„ฑ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ VAE๋Š” ํฌ๊ฒŒ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. Autoencoder(์˜คํ† ์ธ์ฝ”๋”)์™€ ํ—ท๊ฐˆ๋ฆด ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜คํ† ์ธ์ฝ”๋”๋Š” ์ธํ’‹์„ ๋˜‘๊ฐ™์ด ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋Š” latent variable z๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉ์ , ์ฆ‰ ์ธ์ฝ”๋”๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ฃผ ๋ชฉ์ ์ด๊ณ , VAE์˜ ๊ฒฝ์šฐ ์ธํ’‹ x๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” latent vector๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ธํ’‹ .. 2024. 1. 6.
[๋…ผ๋ฌธ ์†Œ๊ฐœ] Drag Your GAN - ๋งˆ์šฐ์Šค ๋“œ๋ž˜๊ทธ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ/๋ณ€ํ˜•ํ•˜๋Š” AI Drag Your GAN ์ด์ „์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ฌ๋ฆฌ Drag Your GAN์€ ์‚ฌ์šฉ์ž์˜ ๋งˆ์šฐ์Šค ๋“œ๋ž˜๊ทธ๋งŒ์œผ๋กœ GAN์„ ์ œ์–ดํ•œ๋‹ค. ๋…ผ๋ฌธ ์ €์ž๋Š” ๋ˆ„๊ตฌ๋‚˜ ํ”ฝ์…€์˜ ์œ„์น˜๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ์ œ์–ดํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ๋ณ€ํ˜•ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๋™๋ฌผ, ์ž๋™์ฐจ, ์ธ๊ฐ„, ํ’๊ฒฝ ๋“ฑ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ฒ”์ฃผ์˜ ํฌ์ฆˆ, ๋ชจ์–‘, ํ‘œํ˜„ ๋ฐ ๋ ˆ์ด์•„์›ƒ์„ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. ๋…ผ๋ฌธ์— ๊ณต๊ฐœ๋œ figure๋ฅผ ๋ณด๋ฉด ์‚ฌ์ž์˜ ์ž…์„ ๋“œ๋ž˜๊ทธํ•˜์—ฌ ๋ฒŒ๋ฆฌ๊ฒŒ ํ•˜๊ฑฐ๋‚˜ ๋‹ค๋ฅธ ๊ณณ์„ ์‘์‹œํ•˜๊ฒŒ ํ• ์ˆ˜ ์žˆ๊ณ , ์‚ฌ๋žŒ์˜ ์ž์„ธ๋ฅผ ๋ฐ”๊พธ๊ฑฐ๋‚˜ ํ’๊ฒฝ ์† ์‚ฐ์˜ ๋†’์ด๋ฅผ ๋ฐ”๊ฟ€ ์ˆ˜๋„ ์žˆ๋‹ค. ๋ฌผ๋ก  ๊ฝค๋‚˜ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ง์ด๋‹ค. GAN ๋ถ„์•ผ์—์„œ ์ด๋ฏธ ์ด๋ฏธ์ง€ ๋งค๋‹ˆํด๋“œ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑ/๋ณ€ํ˜•ํ•˜๋Š” ์—ฐ๊ตฌ๋Š” ๋งŽ์•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ๋ญ”๊ฐ€ ํ”„๋กœ๋•ํŠธํ™”(?)๋˜์–ด ๊ณต๊ฐœ๋œ ๋…ผ๋ฌธ์€ ์ฒ˜์Œ ๋ณด๋Š” ๊ฒƒ ๊ฐ™๋‹ค. Motion supervision ๋‹จ๊ณ„๋Š” .. 2023. 5. 28.
[๊ธฐ์ˆ  ์†Œ๊ฐœ] Text-to-Image Generation | ์ด๋ฏธ์ง€ ์ƒ์„ฑ AI | DALL-E | GPT | dVAE Text to Image Generation Text to Image generation์€ ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„์„œ ํ•ด๋‹น ํ…์ŠคํŠธ์— ํ•ด๋‹นํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ์ˆ ์ด๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด 2010๋…„๋Œ€ ์ค‘๋ฐ˜๋ถ€ํ„ฐ ๊ฐœ๋ฐœ๋˜๊ธฐ ์‹œ์ž‘ํ•ด 2022๋…„์—๋Š” OpenAI์˜ DALL-E 2 , Google Brain์˜ Imagen , StabilityAI์˜ Stable Diffusion ๊ณผ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋ฌผ์ด ์‹ค์ œ ์‚ฌ์ง„๊ณผ ์‚ฌ๋žŒ์ด ๊ทธ๋ฆฐ ์˜ˆ์ˆ ํ’ˆ์˜ ํ’ˆ์งˆ์— ์ ‘๊ทผํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค. Text to Image generation์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Ÿฌํ•œ GAN(Generative Adversarial Networks) ๋ชจ๋ธ์„ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์Œ์œผ๋กœ ์ด๋ฃจ๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šต์‹œ์ผœ์„œ ๊ตฌํ˜„ํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ".. 2023. 4. 6.
728x90