๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ› Research/OCR

[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

by ๋ญ…์ฆค 2023. 3. 12.
๋ฐ˜์‘ํ˜•

๋ณธ ๋…ผ๋ฌธ์€ ICCV 2019์—์„œ Naver Clova๊ฐ€ ๋ฐœํ‘œํ•œ Text Recognition ๋…ผ๋ฌธ์ด๋‹ค. (๊ณต์‹ ๋ ˆํผ์ง€ํ† ๋ฆฌ)

 

์ œ์•ˆํ•˜๋Š” ๋‚ด์šฉ

๊ธฐ์กด์˜ ์ •๋ฆฌ๋˜์–ด ์žˆ์ง€ ์•Š๋˜ STR(Scene Text Recognition) dataset์„ ์ •๋ฆฌํ•˜๊ณ  STR ์„ 4๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด ์ •๋ฆฝํ–ˆ๋‹ค.

๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ STR 4๋‹จ๊ณ„๋Š” ์•„๋ž˜์™€ ๊ฐ™๊ณ , ๊ฐ ๋‹จ๊ณ„์˜ ๋ชจ๋“ˆ๋ณ„ ๊ธฐ์—ฌ๋„๋ฅผ ์‹คํ—˜์„ ํ†ตํ•ด ์ œ๊ณตํ•˜๊ณ  ์žˆ๋‹ค.

 

  • Transformation Stage : TPS(Thin-Plate Spline)์ด๋ผ๋Š” STN(Spatial Transformation Network)์™€ ์œ ์‚ฌํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์ด๋ฏธ์ง€ ๋…ธ๋ฉ€๋ผ์ด์ฆˆ (์™œ๊ณก๋˜์–ด ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ธ์‹ ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์ธ์‹ํ•˜๊ธฐ ์‰ฌ์šด ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜)
  • Feature Extraction Stage : ์ผ๋ฐ˜์ ์ธ CNN ์•„ํ‚คํ…์ฒ˜. VGG, RCNN, ResNet ์„ ๋น„๊ตํ–ˆ๊ณ  ResNet ์ด ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์Œ
  • Sequence Modeling Stage : CNN์œผ๋กœ ์ถ”์ถœํ•œ feature ๋“ค์˜ ์ˆœ์ฐจ์ ์ธ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ ์Šคํ…Œ์ด์ง€. BiLSTM ์‚ฌ์šฉ
  • Prediction Stage: CTC ๋ณด๋‹ค Attn(Attention-based sequence prediction) ๋ฐฉ๋ฒ•์ด ์„ฑ๋Šฅ์ด ๋†’์Œ. Attn ์‚ฌ์šฉ์‹œ attention ๋ฒ ์ด์Šค ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€๋ ค์ง€๊ฑฐ๋‚˜ ๋ˆ„๋ฝ๋œ ๋ฌธ์ž๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ๋„์›€์ด ๋จ

๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ๋ชจ๋ธ์€ TPS-ResNet-BiLSTM-Attn ์„ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ๋กœ ์•ž ๊ธ€์ž๋ฅผ ๋”ฐ์„œ TRBA ๋ชจ๋ธ์ด๋ผ ๋ถ€๋ฅด๊ณ  ์žˆ๋‹ค.

 

๋ฐ์ดํ„ฐ์…‹ ๋ฐ ์‹คํŒจ ์ผ€์ด์Šค ๋ถ„์„

์ด ๋…ผ๋ฌธ์€ ์‚ฌ์‹ค ์ œ์•ˆํ•˜๋Š” ๋‚ด์šฉ์€ ์‹ฌํ”Œํ•˜์ง€๋งŒ 'Text Recognition' ์ด๋ผ๋Š” ์ฃผ์ œ๋ฅผ ๊ต‰์žฅํžˆ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์…‹, ํ…์ŠคํŠธ ์ธ์‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜, ํ…์ŠคํŠธ ์ธ์‹์˜ ์–ด๋ ค์šด ์  ๋“ฑ์„ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•ด์ฃผ๊ธฐ ๋•Œ๋ฌธ์— ํ…์ŠคํŠธ ์ธ์‹์ด๋ผ๋Š” ์ฃผ์ œ๋ฅผ ์ฒ˜์Œ ์ ‘ํ•  ๋•Œ ์•„์ฃผ ์œ ์šฉํ•˜๋‹ค.

 

  • ๋ฐ์ดํ„ฐ์…‹์„ regular, irregular ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ถ„๋ฆฌ
  • ์ธ์‹ ์‹คํŒจ ์ผ€์ด์Šค๋ฅผ ๋‹ค์–‘ํ•œ ์ผ€์ด์Šค๋กœ ๋ถ„๋ฆฌ (์–ด๋ ค์šด ๊ธ€์”จ์ฒด, ์„ธ๋กœ ํ…์ŠคํŠธ, ํŠน์ˆ˜ ๋ฌธ์ž, ๊ฐ€๋ ค์ง,...)
    • ์—ฌ๊ธฐ์„œ ์–ธ๊ธ‰๋œ ์‹คํŒจ ์ผ€์ด์Šค ํ•˜๋‚˜ ํ•˜๋‚˜๊ฐ€ ์„ธ๋ถ€ ์—ฐ๊ตฌ ์ฃผ์ œ๋ผ์„œ ๊ด€๋ จ ๋…ผ๋ฌธ์„ ์ฐพ์œผ๋ฉด ์ž๋ฃŒ๊ฐ€ ๋งŽ๋‹ค

 

 

์‹คํ—˜ ๊ฒฐ๊ณผ

  • ๋„ค ๊ฐ€์ง€ ๋ชจ๋“ˆ๋ฅผ ๊ฐ๊ฐ ์ ์šฉํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณต
  • ๋„ค ๊ฐ€์ง€ ๋ชจ๋“ˆ์„ ๋ชจ๋‘ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ์€ ๊ฐ€์žฅ ์ข‹์ง€๋งŒ, trade-off curve๋ฅผ ๋ณด๋ฉฐ ์ƒํ™ฉ์— ๋งž๋Š” ๋ชจ๋ธ์„ ์„ ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค
    • ์†๋„๋ฅผ ์ƒ๊ฐํ•˜๋ฉด prediction stage์—์„œ Attn ๋ณด๋‹ค๋Š” CTC๋ฅผ
    • ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ƒ๊ฐํ•œ๋‹ค๋ฉด feature extraction stage์—์„œ ResNet ๋ณด๋‹ค๋Š” CRNN์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํ˜„๋ช…ํ•  ์ˆ˜ ์žˆ์Œ

 

๋ถ„์„ & ๋‚ด ์ƒ๊ฐ

  • 2019๋…„ ๊ธฐ์ค€ ์ƒ๋‹นํžˆ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์ด์ง€๋งŒ 2023๋…„ ๊ธฐ์ค€ ICDAR2015 ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ๋ฒค์น˜๋งˆํฌ๋Š” 17์œ„
  • ํ•˜์ง€๋งŒ ์„ฑ๋Šฅ์ด ๋†’์€ ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ vision ๋ชจ๋ธ์— language ๋ชจ๋ธ์ด ๊ฒฐํ•ฉ๋œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ณ , vision ๋ชจ๋ธ ๋งŒ์œผ๋กœ ์‹ฌํ”Œํ•˜๊ฒŒ ํ…์ŠคํŠธ ์ธ์‹์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ๋‚˜์ด์Šคํ•œ ๋ชจ๋ธ์ด๋ผ ์ƒ๊ฐ
  • TPS ๋ชจ๋“ˆ์˜ ๊ฒฝ์šฐ ํ•œ๊ธ€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ…Œ์ŠคํŠธ ์‹œ ๊ทธ๋‹ค์ง€ ํšจ๊ณผ๋ฅผ ๋ณด์ง€ ๋ชปํ•จ. ๊ด€๋ จ๋œ ๋‚ด์šฉ์ด ์žˆ๋Š”์ง€ ์ฐพ์•„๋ด์•ผ - 
๋ฐ˜์‘ํ˜•