๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
728x90

๐Ÿ› Research/NLP & LLM4

Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ Transformer ๋ชจ๋ธ์€ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰˜์–ด์š”.์˜ค๋Š˜์€ ์ด ๋‘ ๋ถ€๋ถ„์ด ๊ฐ๊ฐ ์–ด๋–ค ์—ญํ• ์„ ํ•˜๊ณ , ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€ ์นœ๊ทผํ•˜๊ฒŒ ์„ค๋ช…ํ•ด ๋ณผ๊ฒŒ์š”!๐Ÿ“Œ  ์ธ์ฝ”๋” (Encoder)์—ญํ• : ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ๋œ ๋ฌธ์žฅ์˜ ์ •๋ณด๋ฅผ ์ „์ฒด์ ์œผ๋กœ ์ดํ•ดํ•˜๋ ค๊ณ  ํ•ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, "๋‚˜๋Š” ๋ฐฅ์„ ๋จน์—ˆ๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ์œผ๋ฉด, ์ธ์ฝ”๋”๋Š” ์ด ๋ฌธ์žฅ์˜ ๋ชจ๋“  ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๊ณ , ๋ฌธ์žฅ์˜ ์ „์ฒด์ ์ธ ์˜๋ฏธ์™€ ๋งฅ๋ฝ์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ํŒŒ์•…ํ•ด์š”.ํŠน์ง•: ์ธ์ฝ”๋”๋Š” ๋จผ์ € ๊ฐ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ๊ฐ ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€ ํŒŒ์•…ํ•ด์š”. ์ด๋ ‡๊ฒŒ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๋ฉด, ๋ฌธ์žฅ์˜ ์˜๋ฏธ๋ฅผ ๋” ๊นŠ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์–ด์š”.๊ตฌ์กฐ: ์ธ์ฝ”๋”๋Š” Self-Attention๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋ฅผ ์ด์šฉํ•ด์š”. Self-Attent.. 2024. 11. 6.
Transformer Attention ์ดํ•ดํ•˜๊ธฐ: Q, K, V์˜ ์—ญํ• ๊ณผ ๋™์ž‘ ์›๋ฆฌ LLMํ•˜๋ฉด transformer๋ฅผ ๋นผ๋จน์„ ์ˆ˜ ์—†๊ณ , ๊ทธ ํ•ต์‹ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ฐ”๋กœ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ธ๋ฐ์š”, ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ดํ•ดํ•˜๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์–ด์š”. ํŠนํžˆ, ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” Query (Q), Key (K), Value (V)๋Š” ์–ดํ…์…˜์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ์•„์ฃผ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์š”. ์˜ค๋Š˜์€ ์ด ์„ธ ๊ฐ€์ง€ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์„œ๋กœ ์ž‘์šฉํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”์—์„œ ๊ฐ๊ฐ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด ๋ณผ๊ฑฐ์˜ˆ์š”. ๐Ÿ“Œ Q, K, V ๊ฐœ๋… ์‚ดํŽด๋ณด๊ธฐ Transformer Attention์—์„œ์˜ Query (Q), Key (K), Value (V)๋Š” ๋‹จ์–ด ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ , ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์—ญํ• ์„ ํ•ด์š”. ๊ฐ ๋‹จ์–ด๋Š” ๋ฌธ.. 2024. 11. 6.
[NLP] BERT ๊ฐ„๋‹จ ์„ค๋ช… | Bi-Directional LM | ์–‘๋ฐฉํ–ฅ ์–ธ์–ด ๋ชจ๋ธ BERT(Bidirectional Encoder Representations from Transformers) BERT๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (NLP) ๋ถ„์•ผ์—์„œ ํ˜์‹ ์ ์ธ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ๊ตฌ๊ธ€์ด ๊ฐœ๋ฐœํ•ด 2018๋…„์— ๊ณต๊ฐœ๋˜์—ˆ๋‹ค. BERT๋Š” ์ด์ „์˜ NLP ๋ชจ๋ธ๋ณด๋‹ค ๋” ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ์ƒ์œ„ ์„ฑ๊ณผ๋ฅผ ์ด๋ฃจ์–ด ๋ƒˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค๋ฅธ NLP ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค๋ชฉ์  ๋ชจ๋ธ๋กœ ์ฃผ๋ชฉ๋ฐ›์•˜๋‹ค. ๋…ผ๋ฌธ ์ œ๋ชฉ์€ ์•„๋ž˜์™€ ๊ฐ™์œผ๋ฉฐ ํ”ผ์ธ์šฉ์ˆ˜๋Š” ์•ฝ 8๋งŒํšŒ(23๋…„ 9์›” ๊ธฐ์ค€)๋กœ ์ด์ œ๋Š” LM ๋ถ„์•ผ์—์„œ ์ •๋ง ๊ธฐ๋ณธ์ด ๋˜๋Š” ์—ฐ๊ตฌ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. paper : BERT: Pre-training of Deep Bidirectional Transformers for Languag.. 2023. 9. 25.
[์˜คํ”ˆ ์†Œ์Šค] BERT๋ฅผ ์ด์šฉํ•œ ํ•œ๊ตญ์–ด ๊ฐœ์ฒด๋ช… ์ธ์‹ | NER (Named Entity Recognition) NER(Named Entity Recognition) Named Entity Recognition (NER)์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ธฐ์ˆ  ์ค‘ ํ•˜๋‚˜๋กœ, ๋ฌธ์žฅ ๋‚ด์—์„œ ํŠน์ •ํ•œ ์œ ํ˜•์˜ ๋ช…์นญ(๊ฐœ์ฒด)์„ ์ธ์‹ํ•˜๋Š” ์ž‘์—…์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, "Steve Jobs๋Š” Apple์˜ ์ฐฝ์—…์ž์ž…๋‹ˆ๋‹ค" ๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ๋‹ค๋ฉด, "Steve Jobs"๋Š” ์ธ๋ฌผ(person), "Apple"์€ ์กฐ์ง(organization)์ด๋ผ๋Š” ์œ ํ˜•์˜ ๊ฐœ์ฒด๋กœ ์ธ์‹๋œ๋‹ค. ์ด์™ธ์—๋„ ์žฅ์†Œ, ์‹œ๊ฐ„ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ฐœ์ฒด๋ฅผ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ NER์€ ์ •๋ณด ์ถ”์ถœ, ์งˆ์˜ ์‘๋‹ต, ๋ฆฌ๋ทฐ ๋ถ„์„, ๊ธฐ๊ณ„๋ฒˆ์—ญ ๋“ฑ ๋‹ค์–‘ํ•œ ๊ณณ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ์ „ํ˜€ ์ƒ๊ฐํ•˜์ง€ ๋ชปํ–ˆ๋˜ ํ™œ์šฉ์ฒ˜๋Š” ๊ธฐ๊ณ„๋ฒˆ์—ญ ๋ถ„์•ผ์ด๋‹ค. ์˜์–ด๋ฅผ ํ•œ๊ตญ์–ด๋กœ ๋ฒˆ์—ญํ•  ๋•Œ ๊ธฐ์—…์„ ์ง€์นญํ•˜๋Š” "Apple"์€ "์‚ฌ๊ณผ"๊ฐ€ ์•„๋‹Œ "์• ํ”Œ"๋กœ ๋ฒˆ์—ญํ•ด์•ผ .. 2022. 12. 15.
728x90