[AI/LLM] Transformer์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ
ยท
๐Ÿ› Research/NLP & LLM
Transformer ๋ชจ๋ธ์€ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰˜์–ด์š”.์˜ค๋Š˜์€ ์ด ๋‘ ๋ถ€๋ถ„์ด ๊ฐ๊ฐ ์–ด๋–ค ์—ญํ• ์„ ํ•˜๊ณ , ์–ด๋–ป๊ฒŒ ๋‹ค๋ฅด๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€ ์นœ๊ทผํ•˜๊ฒŒ ์„ค๋ช…ํ•ด ๋ณผ๊ฒŒ์š”!๐Ÿ“Œ  ์ธ์ฝ”๋” (Encoder)์—ญํ• : ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ๋œ ๋ฌธ์žฅ์˜ ์ •๋ณด๋ฅผ ์ „์ฒด์ ์œผ๋กœ ์ดํ•ดํ•˜๋ ค๊ณ  ํ•ด์š”. ์˜ˆ๋ฅผ ๋“ค์–ด, "๋‚˜๋Š” ๋ฐฅ์„ ๋จน์—ˆ๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ์œผ๋ฉด, ์ธ์ฝ”๋”๋Š” ์ด ๋ฌธ์žฅ์˜ ๋ชจ๋“  ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๊ณ , ๋ฌธ์žฅ์˜ ์ „์ฒด์ ์ธ ์˜๋ฏธ์™€ ๋งฅ๋ฝ์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ํŒŒ์•…ํ•ด์š”.ํŠน์ง•: ์ธ์ฝ”๋”๋Š” ๋จผ์ € ๊ฐ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•œ ํ›„, ๊ฐ ๋‹จ์–ด๋“ค์ด ์„œ๋กœ ์–ด๋–ป๊ฒŒ ์—ฐ๊ฒฐ๋˜๋Š”์ง€ ํŒŒ์•…ํ•ด์š”. ์ด๋ ‡๊ฒŒ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๋ฉด, ๋ฌธ์žฅ์˜ ์˜๋ฏธ๋ฅผ ๋” ๊นŠ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์–ด์š”.๊ตฌ์กฐ: ์ธ์ฝ”๋”๋Š” Self-Attention๊ณผ ํ”ผ๋“œํฌ์›Œ๋“œ ๋„คํŠธ์›Œํฌ๋ฅผ ์ด์šฉํ•ด์š”. Self-Attent..
[AI/LLM] Transformer Attention ์ดํ•ดํ•˜๊ธฐ: Q, K, V์˜ ์—ญํ• ๊ณผ ๋™์ž‘ ์›๋ฆฌ
ยท
๐Ÿ› Research/NLP & LLM
LLMํ•˜๋ฉด transformer๋ฅผ ๋นผ๋จน์„ ์ˆ˜ ์—†๊ณ , ๊ทธ ํ•ต์‹ฌ ์ค‘ ํ•˜๋‚˜๋Š” ๋ฐ”๋กœ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ธ๋ฐ์š”, ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์ดํ•ดํ•˜๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•˜๊ณ  ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์–ด์š”. ํŠนํžˆ, ํŠธ๋žœ์Šคํฌ๋จธ์—์„œ ์‚ฌ์šฉ๋˜๋Š” Query (Q), Key (K), Value (V)๋Š” ์–ดํ…์…˜์ด ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ๋ฐ ์•„์ฃผ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ด์š”. ์˜ค๋Š˜์€ ์ด ์„ธ ๊ฐ€์ง€ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์„œ๋กœ ์ž‘์šฉํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”์—์„œ ๊ฐ๊ฐ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜๋Š”์ง€์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ด ๋ณผ๊ฑฐ์˜ˆ์š”. ๐Ÿ“Œ Q, K, V ๊ฐœ๋… ์‚ดํŽด๋ณด๊ธฐ Transformer Attention์—์„œ์˜ Query (Q), Key (K), Value (V)๋Š” ๋‹จ์–ด ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ , ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” ์—ญํ• ์„ ํ•ด์š”. ๊ฐ ๋‹จ์–ด๋Š” ๋ฌธ..
[ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง] (5) ํ”„๋กฌํ”„ํŠธ ๋ณด์•ˆ : LLM ์ทจ์•ฝ์ ๊ณผ ๋ณด์™„ ๋ฐฉ๋ฒ•
ยท
๐Ÿ› Research/NLP & LLM
์˜ค๋Š˜์€ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง ๋ณด์•ˆ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•ด๋ณด๋ ค๊ณ  ํ•ด์š”. LLM์„ ์‚ฌ์šฉํ•  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ์ทจ์•ฝ์ ๋“ค๊ณผ, ์ด๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ๋‹ค๋ฃฐ ๊ฒƒ์ž…๋‹ˆ๋‹ค. LLM์˜ ๋ณด์•ˆ์„ ๊ฐ•ํ™”ํ•˜์—ฌ ์•ˆ์ „ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์„œ๋น„์Šค๋ฅผ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•จ๊ป˜ ์‚ดํŽด๋ด…์‹œ๋‹ค.LLM ์ทจ์•ฝ์ ๋ฐ์ดํ„ฐ ์ค‘๋…(Data Poisoning)๊ฐœ๋…: ์•…์˜์ ์ธ ์‚ฌ์šฉ์ž๊ฐ€ ๋ชจ๋ธ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์œ ํ•ดํ•˜๊ฑฐ๋‚˜ ์™œ๊ณก๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฝ์ž…ํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ค๋Š” ๊ณต๊ฒฉ.์˜ˆ์‹œ: ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํŠน์ • ํŽธํ–ฅ๋œ ์ •๋ณด๋ฅผ ์‚ฝ์ž…ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ž˜๋ชป๋œ ์ •๋ณด๋ฅผ ์ƒ์„ฑํ•˜๊ฒŒ ํ•จ.๋ณด์™„ ๋ฐฉ๋ฒ•: ๋ฐ์ดํ„ฐ ๊ฒ€์ฆ ๋ฐ ์ •์ œ ํ”„๋กœ์„ธ์Šค๋ฅผ ๊ฐ•ํ™”ํ•˜๊ณ , ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์†Œ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œ์ผœ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์ฃผ์ž…(Prompt Injection)๊ฐœ๋…: ๊ณต๊ฒฉ์ž๊ฐ€ ๋ชจ๋ธ์˜ ์‘๋‹ต์„ ์˜๋„์ ์œผ๋กœ ์™œ๊ณก..
[ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง] (4) ๊ณ ๊ธ‰ ๊ธฐ๋ฒ• : Expert prompting, Generated knowledge prompting, RAG, Tree-of-Thought, Plan-and-solve prompting, Automatic prompt engineer
ยท
๐Ÿ› Research/NLP & LLM
์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ๊ณ ๊ธ‰ ๊ธฐ๋ฒ•๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ด์š”. ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ ์„ ํ†ตํ•ด AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ•œ์ธต ๋” ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Expert Prompting, Generated Knowledge Prompting, RAG, Tree-of-Thought, Plan-and-Solve Prompting, Automatic Prompt Engineering๊ณผ ๊ฐ™์€ ๊ธฐ๋ฒ•๋“ค์„ ์‚ดํŽด๋ณผ ๊ฑฐ์˜ˆ์š”. ๊ฐ ๊ธฐ๋ฒ•์˜ ๊ฐœ๋…๊ณผ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ์–ด๋–ป๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณผ๊นŒ์š”?1. Expert PromptingExpert Prompting์€ ๋ชจ๋ธ์—๊ฒŒ ํŠน์ • ๋ถ„์•ผ์˜ ์ „๋ฌธ์ ์ธ ์ง€์‹์„ ๊ฐ–์ถ˜ ๊ฒƒ์ฒ˜๋Ÿผ ํ–‰๋™ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ๋ชจ๋ธ์ด ํŠน์ • ์ „๋ฌธ๊ฐ€์˜ ์—ญํ• ์„ ๋งก์•„, ..
[ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง] (3) ๊ณ ๊ธ‰ ๊ธฐ๋ฒ•: Few-shot, Chain-of-thought, Self-consistency, Selection-inference, Least-to-most, ReAct, Self-evaluation
ยท
๐Ÿ› Research/NLP & LLM
์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ๊ณ ๊ธ‰ ๊ธฐ๋ฒ•๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ด์š”. ์ด ๊ธฐ๋ฒ•๋“ค์€ AI ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ์ž‘์—…์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ฃผ๋Š” ์ค‘์š”ํ•œ ๋„๊ตฌ๋“ค์ด์—์š”. ํŠนํžˆ few-shot examples, chain-of-thought, self-consistency, selection-inference, least-to-most, react, self-evaluation ๊ฐ™์€ ๊ธฐ๋ฒ•๋“ค์„ ๋‹ค๋ฃฐ ๊ฑฐ์˜ˆ์š”. ๊ฐ๊ฐ์˜ ๊ธฐ๋ฒ•์„ ์ดํ•ดํ•˜๊ณ  ์ ์ ˆํžˆ ํ™œ์šฉํ•˜๋ฉด, ๋” ์ •ํ™•ํ•˜๊ณ  ์œ ์šฉํ•œ AI ์‘๋‹ต์„ ์–ป์„ ์ˆ˜ ์žˆ์–ด์š”. ๊ทธ๋Ÿผ, ๊ฐ ๊ธฐ๋ฒ•๋“ค์„ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณผ๊นŒ์š”?Few-shot ExamplesFew-shot examples๋Š” ๋ชจ๋ธ์—๊ฒŒ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•ด์„œ, ๋ชจ๋ธ์ด ์ด ์˜ˆ์‹œ๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์—์š”. ์ด..
[ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง] (2) ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ ํ•ต์‹ฌ ๊ฐœ๋… : Role (์—ญํ• ) Policy (์ •์ฑ…) Audience (๋Œ€์ƒ) Knowledge (์ง€์‹) Format (ํ˜•์‹) Task (์ž‘์—…) Example (์˜ˆ์‹œ)
ยท
๐Ÿ› Research/NLP & LLM
์˜ค๋Š˜์€ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์—์„œ ์ค‘์š”ํ•œ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ ํ•ต์‹  ๊ฐœ๋…๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•ด์š”. ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž˜ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์€ AI ๋ชจ๋ธ์ด ์›ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‘๋‹ตํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๋ฐ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•ด์š”. ํ”„๋กฌํ”„ํŠธ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ดํ•ดํ•˜๋ฉด, ๋” ํšจ๊ณผ์ ์ด๊ณ  ์ •ํ™•ํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด์„œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐ ํฐ ๋„์›€์ด ๋ผ์š”. ๊ทธ๋Ÿผ, ๊ฐ๊ฐ์˜ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์‚ดํŽด๋ณผ๊นŒ์š”?ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„ ํ•ต์‹ฌ ๊ฐœ๋…ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž˜ ์„ค๊ณ„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ช‡ ๊ฐ€์ง€ ์ฃผ์š” ๊ฐœ๋…์„ ์ดํ•ดํ•˜๊ณ  ์ ์ ˆํžˆ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ด์š”. ๊ธฐ๋ณธ์ ์ด๊ณ  ํ•ต์‹ฌ์ ์ธ ๊ฐœ๋…์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์–ด์š”Role (์—ญํ• )Policy (์ •์ฑ…)Audience (๋Œ€์ƒ)Knowledge (์ง€์‹)Format (ํ˜•์‹)Task (์ž‘์—…)Example (์˜ˆ์‹œ) 1. Role (์—ญํ• )Rol..