[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (3) : YOLOv1 ~ YOLOv4
ยท
๐Ÿ› Research/Perception
์ด์ „ ํฌ์ŠคํŒ…์—์„œ ์‚ดํŽด๋ณธ Faster R-CNN์ด Region Proposal์„ GPU์—์„œ ์ฒ˜๋ฆฌํ•˜๋ฉด์„œ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ์— ๊ฐ€๊นŒ์›Œ์กŒ๋‹ค๋ฉด, YOLO๋Š” ํ•œ ๊ฑธ์Œ ๋” ๋‚˜์•„๊ฐ€ ๊ฐ์ฒด ๊ฒ€์ถœ์„ ์ง„์ •ํ•œ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ์–ด์š”. ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” YOLO์˜ ๋ฐœ์ „ ๊ณผ์ •์„ ๋ฒ„์ „๋ณ„๋กœ ์‚ดํŽด๋ณด๊ณ , ๊ฐ ๋ฒ„์ „์ด ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ์–ด๋–ค ์ฐจ์ด์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€ ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ด์š” ๐Ÿ˜Š ๐Ÿ“Œ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์ „์ฒด ํฌ์ŠคํŒ…๋”๋ณด๊ธฐ[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (1) : RCNN, SPPNet[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (2) : Fast RCNN, Faster RCNN[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (3) : YOLOv1 ~ YOLOv4[Object Detection] ๊ฐ์ฒด ๊ฒ€..
[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (2) : Fast RCNN, Faster RCNN
ยท
๐Ÿ› Research/Perception
์ง€๋‚œ๋ฒˆ์— ์‚ดํŽด๋ณธ ์ดˆ๊ธฐ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋“ค์ด ์ด๋ฏธ์ง€์—์„œ ๊ฐ์ฒด๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ๋‹ค๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„์—์„œ๋Š” ์ด ๊ณผ์ •์„ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์˜€์ฃ . ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•œ ๋‘ ๊ฐ€์ง€ ํ˜์‹ ์ ์ธ ๋ชจ๋ธ์ธ Fast RCNN๊ณผ Faster RCNN์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค ํ•ด์š”. Fast RCNN์€ RCNN์˜ ๋А๋ฆฐ ์†๋„๋ฅผ ๊ฐœ์„ ํ•ด ๊ฐ์ฒด ๊ฒ€์ถœ์„ ํ•œ์ธต ๋น ๋ฅด๊ฒŒ ๋งŒ๋“ค์–ด ์ฃผ์—ˆ๊ณ , Faster RCNN์€ ์ด ๊ณผ์ •์„ GPU๋กœ ๊ฐ€์†ํ™”ํ•ด ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ์— ํ•œ ๋ฐœ ๋” ๋‹ค๊ฐ€์„ฐ์–ด์š”. ๋‘ ๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๊ณ , ์–ด๋–ค ์ฐจ์ด์ ์ด ์žˆ๋Š”์ง€ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๋ฉด์„œ ๊ฐ์ฒด ๊ฒ€์ถœ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์„ ํ•จ๊ป˜ ๋”ฐ๋ผ๊ฐ€๋ณด์„ธ์š”! ๐Ÿ˜Š ๐Ÿ“Œ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์ „์ฒด ํฌ์ŠคํŒ…๋”๋ณด๊ธฐ[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (1) : RCNN, SPPNet[Ob..
[Object Detection] ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ (1) : RCNN, SPPNet
ยท
๐Ÿ› Research/Perception
๊ฐ์ฒด ๊ฒ€์ถœ(Object Detection)์€ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜์˜ˆ์š”. ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•ด ๊ทธ ์•ˆ์— ์–ด๋–ค ๊ฐ์ฒด๊ฐ€ ์žˆ๋Š”์ง€ ์•Œ์•„๋‚ด๊ณ , ๊ทธ ์œ„์น˜๊นŒ์ง€ ์ •ํ™•ํžˆ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ •์ด์ฃ . ์ด ๊ธฐ์ˆ ์€ ์ž์œจ์ฃผํ–‰์ฐจ, ์Šค๋งˆํŠธ ์‹œํ‹ฐ, ๋ณด์•ˆ ์‹œ์Šคํ…œ, ์‹ฌ์ง€์–ด๋Š” ์šฐ๋ฆฌ์˜ ์Šค๋งˆํŠธํฐ ์นด๋ฉ”๋ผ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ๊ณณ์—์„œ ํ™œ์šฉ๋˜๊ณ  ์žˆ์–ด์š”. ์˜ค๋Š˜์€ ๊ฐ์ฒด ๊ฒ€์ถœ์˜ ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ ํฐ ์—ญํ• ์„ ํ–ˆ๋˜ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์ธ RCNN๊ณผ SPPNet์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ด์š”. ์ด ๋ชจ๋ธ๋“ค์€ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€, ์–ด๋–ค ์žฅ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ๊ทธ ๊ณผ์ •์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ค‘์š”ํ•œ ์šฉ์–ด๋“ค์€ ๋ฌด์—‡์ธ์ง€ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณผ ๊ฑฐ์˜ˆ์š”. ๊ฐ์ฒด ๊ฒ€์ถœ์˜ ๊ธฐ๋ณธ ๊ฐœ๋…์„ ์ดํ•ดํ•˜๊ณ , ๊ธฐ์ˆ ์ด ์–ด๋–ป๊ฒŒ ๋ฐœ์ „ํ•ด์™”๋Š”์ง€ ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด ์ด๋ฒˆ ํฌ์ŠคํŒ…์ด ํฐ ๋„์›€์ด ๋  ๊ฑฐ์˜ˆ์š”! ๐Ÿ˜Š  ๐Ÿ“Œ ๊ฐ์ฒด ..
[Object Detection] DETR ๋ชจ๋ธ ์ดํ•ดํ•˜๊ธฐ! | End-to-end ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ
ยท
๐Ÿ› Research/Perception
๊ฐ์ฒด ๊ฒ€์ถœ(Object Detection)์€ ์ด๋ฏธ์ง€๋‚˜ ์˜์ƒ์—์„œ ์–ด๋–ค ๊ฐ์ฒด๊ฐ€ ์–ด๋””์— ์žˆ๋Š”์ง€๋ฅผ ์‹๋ณ„ํ•˜๋Š” ์ปดํ“จํ„ฐ ๋น„์ „์˜ ํ•ต์‹ฌ ๊ณผ์ œ ์ค‘ ํ•˜๋‚˜๋‹ค. ์ตœ๊ทผ๊นŒ์ง€๋„ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์€ R-CNN ๊ณ„์—ด์ด๋‚˜ YOLO ๊ณ„์—ด์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๊ตฌ์กฐ์™€ ํ›„์ฒ˜๋ฆฌ ๋‹จ๊ณ„๋ฅผ ํฌํ•จํ•œ ๋ฐฉ์‹์ด ์ฃผ๋ฅผ ์ด๋ค˜์ง€๋งŒ, DETR(Detection Transformer)์€ ์ด ํ๋ฆ„์— ํฐ ์ „ํ™˜์ ์„ ๋งŒ๋“ค์–ด๋ƒˆ๋‹ค.DETR์€ Transformer ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์•ต์ปค ๋ฐ•์Šค ์—†์ด, ํ›„์ฒ˜๋ฆฌ ์—†์ด, ๊ฐ์ฒด ๊ฒ€์ถœ์„ End-to-End๋กœ ํ•™์Šตํ•˜๊ณ  ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“  ๋ชจ๋ธ์ด๋‹ค.1. DETR ํ•ต์‹ฌ ์•„์ด๋””์–ด ๊ธฐ์กด์˜ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋“ค์€ ์ˆ˜๋งŽ์€ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ›„๋ณด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ๋งŒ๋“ค๊ณ , ๊ทธ ์ค‘์—์„œ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ€์ง„ ๊ฒƒ๋งŒ ๋‚จ๊ธฐ๋Š” ํ›„์ฒ˜๋ฆฌ ๊ณผ์ •(NMS)์ด ํ•„์š”ํ•˜๋‹ค. ์ด๋Ÿฌํ•œ ๊ณผ์ •์€ ๋ณต์žกํ• ..
LLM ํ”„๋กฌํ”„ํŠธ ์—”๋‹ˆ์ง€์–ด๋ง, ๊ทธ๊ฒŒ ๋Œ€์ฒด ๋ญ”๋ฐ? ๋‚˜๋„ ์•Œ์•„์•ผํ•ด!?
ยท
๐Ÿ› Research/NLP • LLM
์˜ค๋Š˜ ๋ถ€ํ„ฐ 'LLM ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง'์ด๋ผ๋Š” ์ฃผ์ œ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•ด๋ณด๋ ค๊ณ  ํ•ด์š”. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด๋ผ๋Š” ๋ง์€ ์š”์ฆ˜ ๋งŽ์ด๋“ค ๋“ค์–ด๋ณด์…จ์ฃ ? ๊ทผ๋ฐ '๋‚˜๋„ ์ด๊ฑธ ๊ณต๋ถ€ํ•ด์•ผ ํ•˜๋‚˜...'๋ผ๋Š” ์ƒ๊ฐ๋„ ๋งŽ์ด ํ•˜์…จ์„ ๊ฑฐ ๊ฐ™์•„์š”.  ์•ž์œผ๋กœ ๊ฐ„๋‹จํ•˜๊ณ  ์‰ฝ๊ฒŒ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์— ๋Œ€ํ•œ ๋‚ด์šฉ์„ ํฌ์ŠคํŒ…ํ•ด ๋‚˜๊ฐˆ ์˜ˆ์ •์ด๋‹ˆ ํ•จ๊ป˜ ์•Œ์•„๊ฐ€๋ด์š”!์–ด์ฉŒ๋ฉด ๋„์›€์ด ๋ ์ง€๋„ ๋ชจ๋ฅด์ž–์•„? ใ…Žใ…Žํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด๋ž€?๋จผ์ €, ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์ด ๋ฌด์—‡์ธ์ง€๋ถ€ํ„ฐ ์„ค๋ช…๋“œ๋ฆด๊ฒŒ์š”. 'ํ”„๋กฌํ”„ํŠธ(Prompt)'๋ž€ LLM(Large Language Model), ์ฆ‰ GPT-4 ๊ฐ™์€ ๊ฑฐ๋Œ€ํ•œ ์–ธ์–ด ๋ชจ๋ธ์—๊ฒŒ ์ฃผ์–ด์ง€๋Š” ์งˆ๋ฌธ์ด๋‚˜ ์ง€์‹œ๋ฅผ ๋งํ•ด์š”. ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด, ์šฐ๋ฆฌ๊ฐ€ ์ธ๊ณต์ง€๋Šฅ์—๊ฒŒ "์ด๋Ÿฐ ์งˆ๋ฌธ์— ๋‹ตํ•ด์ค˜"๋ผ๊ณ  ์š”์ฒญํ•˜๋Š” ๋ฌธ์žฅ์ž…๋‹ˆ๋‹ค. ์—”์ง€๋‹ˆ์–ด๋ง์ด ๋ถ™์€ ์ด์œ ๋Š” ๋‹จ์ˆœํžˆ ์งˆ๋ฌธํ•˜๋Š” ๊ฒƒ์—์„œ ๋๋‚˜๋Š” ..
VAE (Variational Autoencoder) ์„ค๋ช… | VAE Pytorch ์ฝ”๋“œ ์˜ˆ์‹œ
ยท
๐Ÿ› Research/Image•Video Generation
VAE (Variational Autoencoder)   VAE(Variational Autoencoder)๋Š” ์ƒ์„ฑ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ์ฃผ๋กœ ์ฐจ์› ์ถ•์†Œ ๋ฐ ์ƒ์„ฑ ์ž‘์—…์— ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง ์•„ํ‚คํ…์ฒ˜์ด๋‹ค. VAE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š”๋ฐ, ํŠนํžˆ ์ด๋ฏธ์ง€ ๋ฐ ์Œ์„ฑ ์ƒ์„ฑ๊ณผ ๊ฐ™์€ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ VAE๋Š” ํฌ๊ฒŒ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. Autoencoder(์˜คํ† ์ธ์ฝ”๋”)์™€ ํ—ท๊ฐˆ๋ฆด ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜คํ† ์ธ์ฝ”๋”๋Š” ์ธํ’‹์„ ๋˜‘๊ฐ™์ด ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋Š” latent variable z๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉ์ , ์ฆ‰ ์ธ์ฝ”๋”๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ฃผ ๋ชฉ์ ์ด๊ณ ,VAE์˜ ๊ฒฝ์šฐ ์ธํ’‹ x๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” latent vector๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ธํ’‹..