๋ณธ ๋ ผ๋ฌธ์ CVPR 2021์์ ๋ฐํ๋ Text Recognition ๋ ผ๋ฌธ์ผ๋ก, TRBA ๋ชจ๋ธ ('What is wrong with scene text recognition model comparisons? dataset and model analysis')์ ์ ์ํ ๋ฐฑ์ ํ ๋์ ๋ ผ๋ฌธ์ด๊ธฐ๋ ํ๋ค.
๋ณธ๋ฌธ ๋ด์ฉ

Scene Text Recognition (STR) ์ฐ๊ตฌ์์๋ ๋ฆฌ์ผ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ์ผ๋ฐ์ ์ผ๋ก ๋๊ท๋ชจ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต์ ์งํํ๋ค. ๋๋ฌธ์ ์๋ฌต์ ์ผ๋ก ๋ฆฌ์ผ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ STR ๋ชจ๋ธ ํ์ต์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ค๋ ์๋ฌต์ ์ธ ์์(?)์ด ์์๋ค๊ณ ํ๋ค. ํ์ง๋ง ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด ์์์ด STR ์ฐ๊ตฌ๋ฅผ ๋ฐฉํดํ๋ค๊ณ ๋งํ๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ต๊ทผ์ ์ถ์ ๋ ๋ฆฌ์ผ ๋ฐ์ดํฐ์ ์ ํตํฉํ๊ณ ์ง์ ๋ ์ค์ ๋ฐ์ดํฐ๋ง์ผ๋ก STR ๋ชจ๋ธ์ด ์ ํ์ต๋๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ํ ๋ถ์กฑํ label์ ๋ณด์ํ๊ธฐ ์ํด ๋จ์ํ data augmentation์ semi/self supervised learning ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
๋ฆฌ์ผ ๋ฐ์ดํฐ์ ๋ง์ ์ฌ์ฉํด์ ์ถฉ๋ถํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ , ๋ ์ ์ ์์ label๋ก STR์ semi/self supervised learning ๋ฐฉ๋ฒ์ ์ ์ฉํ ์ต์ด์ ์ฐ๊ตฌ๋ผ๊ณ ํ๋ค.
ํ ์คํธ ์ธ์ ๋ชจ๋ธ ํ์ต์ ์ํ ์์ง์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ด ์๋นํ ๊น๋ค๋กญ๊ธฐ ๋๋ฌธ์ ์ด ๋ ผ๋ฌธ์ abstract๋ ์๋นํ ๋งค๋ ฅ์ ์ผ๋ก ๋ณด์ธ๋ค. TRBA ๋ชจ๋ธ์ ์ ์ํ ์ ์์ด๊ธฐ์ ๋์ฑ ๋ ๊ธฐ๋ํ๊ณ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด๊ฒ ๋์๋ค.
๋ฆฌ์ผ ๋ฐ์ดํฐ์ ํตํฉ


๋ณธ๋ฌธ์ ์๋ถ๋ถ์ ๊ณต๊ฐ๋ ๋ฆฌ์ผ ๋ฐ์ดํฐ์ ํตํฉ์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ๋ค๋ฃฌ๋ค. IDCAR ๋ํ์์ 2015๋ ๋ถํฐ IC13, IC15, RCTW, ArT, LSVT, MLT19, ReCTS ๋ฑ์ ๋ฐ์ดํฐ๊ฐ ๊ณ์ ์ถ์ ๋์ด ์๋ค๊ณ ํ๋ค. ๋ํ semi/self supervised learning์ ์ํด ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ 3๊ฐ์ ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ๋ก ํตํฉํ๋ค. ๋จ์ด ์์ญ bbox ๋ง์ ์๊ธฐ์ pre-train๋ text detector๋ก ๋จ์ด ์์ญ์ ์๋ผ๋ด์ด ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
STR with Fewer label
์์ ์ธ๊ธํ ๊ฒ์ฒ๋ผ ๋ฆฌ์ผ ๋ฐ์ดํฐ๊ฐ ๋ง์ด ์ฆ๊ฐํ๊ธด ํ์ง๋ง ์ฌ์ ํ ํฉ์ฑ ๋ฐ์ดํฐ์ ๋นํ๋ฉด ๊ต์ฅํ ์ ๋ค. ๋๋ฌธ์ ์ ์ ์์ label ๋ก STR ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด semi/self supervised learning ๋ฐฉ๋ฒ์ ๋์ ํ๋ค.

# Semi-supervised Learning
๋ณดํต STR์ ๊ฒฝ์ฐ ๋ถ์กฑํ ๋ฐ์ดํฐ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ unlabeled data๋ฅผ ์ฌ์ฉํ๋ ์ฐ๊ตฌ๋ ๋๋ฌผ๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ ๊ฐ์ง์ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ semi-supervised learning ๋ฐฉ๋ฒ์ ์๊ฐํ๋ค.
- Pseudo Label (PL) (Figure 5 (a))
- ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต
- ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํด ๋ ์ด๋ธ์ด ์ง์ ๋์ง ์์ ๋ฐ์ดํฐ์ ๋ํ ์์ธก์ ์ํํ๊ณ pseudo label๋ก ์ฌ์ฉ
- ๋ ์ด๋ธ์ด ์ง์ ๋ ๋ฐ์ดํฐ์ pseudo label์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํ๊ณ ์ด์ ๋ํด ๋ชจ๋ธ์ ์ฌํ์ต
- Mean Teacher (MT) (Figure 5 (b))
- ๋ชจ๋ธ๊ณผ ๋ชจ๋ธ์ ์นดํผ๋ณธ์ ์ค๋น
- ์ ์๋ฅผ student ๋ชจ๋ธ๋ก, ํ์๋ฅผ teacher ๋ชจ๋ธ๋ก ์ฌ์ฉ
- ๋์ผํ ๋ฏธ๋ ๋ฐฐ์น์ 2๊ฐ์ ๋๋ค augmentation์ ์ ์ฉ
- ํ๋๋ฅผ student ๋ชจ๋ธ์, ๋ค๋ฅธ ํ๋๋ฅผ teacher ๋ชจ๋ธ์ ์ ๋ ฅ
- ์ถ๋ ฅ์์ MSE loss๋ฅผ ๊ณ์ฐ
- student ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ
- student ๋ชจ๋ธ์ exponential moving average(EMA)๋ก teacher ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ
# Self-supervised Learning
CV ๋๋ฉ์ธ์์ self-supervised learning์ ์ผ๋ฐ์ ์ผ๋ก ๋ค์ ๋ ๋จ๊ณ๋ก ์ํ๋๋ค. 1) pretext task๋ก ๋ชจ๋ธ์ pre-training 2) ์ด๊ธฐํ๋ฅผ ์ํ ๋ฏธ๋ฆฌ pre-train ๋ ๊ฐ์ค์น๋ฅผ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ main task๋ก ํ์ต. Pretext ์์ ์ ์ผ๋ฐ์ ์ผ๋ก label์ด ์๋ ๋ฐ์ดํฐ๋ก ์ํ๋๊ณ , ๋ชจ๋ธ์ pretext ์์ ์ ํ์ตํ์ฌ main task ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ ๋์ feature map์ ์ป๊ฒ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ RoNet๊ณผ MoCo๋ฅผ ์กฐ์ฌํ๋ค๊ณ ํ๋ค.
- RoNet
- pretext task๋ก ์ด๋ฏธ์ง์ ํ์ ์ ์์ธก
- ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ 0, 90, 180, 270 ๋ ํ์ ํ๊ณ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง์ ์ ์ฉ๋ ํ์ ์ ์ธ์
- MoCo (Momentum Contrast)
- ๋ค์ํ pretext task์ ์ ์ฉํ ์ ์๋ contrastive learning ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ๊ณผ ๋ชจ๋ธ์ ์นดํผ๋ณธ์ ์ค๋นํด์.... (๋ณต์กํด์ ์๋ต)
์คํ ๊ฒฐ๊ณผ

- ๋ฆฌ์ผ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด Table 1์ ๋์ด๋ 11๊ฐ์ ๋ฆฌ์ผ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต
- training 276k, validation 63k์ ๋ฐ์ดํฐ ์ฌ์ฉ
- ํฉ์ฑ ๋ฐ์ดํฐ์ ์ผ๋ก์ ํ์ต๊ณผ ๋น๊ตํ๊ธฐ ์ํด MJ์ ST ๋ฐ์ดํฐ์ ์ ํฉ์ ์ฌ์ฉ
- Semi/self supervised learning ์ ์ํด Table 1์ ํ์ํ unlabeled ๋ฐ์ดํฐ์ 3๊ฐ ์ฌ์ฉ
TRBA ๋ชจ๋ธ์ ๊ฒฝ์ฐ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ตํ ๊ฒฝ์ฐ๋ณด๋ค ๋ฆฌ์ผ ๋ฐ์ดํฐ์ ๋ง์ ์ฌ์ฉํ์ฌ ํ์ตํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ ์ข๊ณ , semi/self supervised learning ๊น์ง ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋์ฑ ์ฆ๊ฐ



- Augmentation์ ๊ฒฝ์ฐ Crop, Rotation, Blur ๋ฑ์ด ํจ๊ณผ์ ์ด์ง๋ง TRBA ์ ๊ฒฝ์ฐ augmentation ์์ฒด์ ํจ๊ณผ๊ฐ ํฌ์ง ์์ ๊ฒ ๊ฐ์
- Semi-supervised ์ ๊ฒฝ์ฐ PL ๋ฐฉ๋ฒ์ด ํจ๊ณผ์ ์ด๊ณ , Self-supervised์ ๊ฒฝ์ฐ RoNet๋ง CRNN ๋ชจ๋ธ์์ ํจ๊ณผ์
- ๊ฒฐ๊ตญ PL + RotNet ์กฐํฉ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณค ์์ง๋ง, TRBA ๋ชจ๋ธ์์๋ PL ์ ๋๋ง ํจ๊ณผ๊ฐ ์๋ ๋ฏ
- ๋น์ฐํ ๊ฒฐ๊ณผ์ด์ง๋ง ๋ฆฌ์ผ ๋ฐ์ดํฐ๊ฐ ์ฆ๊ฐํ๋ฉด์ ์ฑ๋ฅ์ด ํฅ์๋จ์ ๋ณด์ฌ์ค
์ ๋ฆฌ
์ ๋ฆฌ ๋จ๊ณ์ ์ค๋๊น ์๊ฐ๋ณด๋ค ์ฐจ๋ถํด์ง๋ค. ์ฌ์ค ๋ ผ๋ฌธ์์ ๋งํ๊ณ ์ ํ๋ ๊ฒ ๋๋ฌด๋ ๋ช ํํ๊ณ ๊ฐ๋จํ๋ฐ ๋ ์กฐ๊ธ ํ๋ฌดํ๊ธฐ๋ ํ๋ค.
- ๊ธฐ์กด์ ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์์กดํ๋ STR ๋ชจ๋ธ ํ์ต์ด ์ฌ์ค์ ํฉ์ฑ ๋ฐ์ดํฐ์ 1.7% ์ ๋ถ๊ณผํ ๋ฆฌ์ผ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ถฉ๋ถํ ์ฑ๋ฅ ๋ฐํ
- ์ ์ label์ ๋ณด์ํ๊ธฐ ์ํด data augmentation๊ณผ semi/self supervised learning ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ๋์ฑ ํฅ์
<์๋ฌธ?!>
๋ ผ๋ฌธ์์ ์ฃผ์ฅํ๋๊ฑด ์ ๋ ์ค์ด ์ ๋ถ์ธ๋ฐ, ์ฌ์ค ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ์๋ ๋ฆฌ์ผ ๋ฐ์ดํฐ๋ณด๋ค ์ข์ ๋ฐ์ดํฐ๋ ์๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ํ๋ฐํ ์ฌ์ฉํ ์ด์ ๋ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ฒ ๋ง์ด ๋ง๋ค ์ ์์ผ๋๊น ์๊ณ , ๋น์ฐํ ๋ฆฌ์ผ ๋ฐ์ดํฐ๊ฐ ์ด๋์ ๋์ effectiveํ ์์ ๋ค๋ค๋ฅด๋ฉด ์ฑ๋ฅ์ ๋น์ทํด์ง ๊ฒ์์ด ๋ถ๋ช ํ๋ค. ๋ฌผ๋ก ํฉ์ฑ ๋ฐ์ดํฐ์ 1.7% ์ ์ ๋ง์ผ๋ก๋ ์ฑ๋ฅ์ด ๋น์ทํด์ง๋ค๋ ๊ฒ์ ๋๋ผ์ ๋ค. Few label์ ์ํ semi/self supervised ๋ฐฉ๋ฒ๋ค์ ๋์ฑ ์์ฌ์ด๋ฐ ๊ทธ๋๋ง ์ธ๋งํด ๋ณด์ด๋ PL์ ๊ฒฝ์ฐ pre-train๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ด๋์ ๋ ๋ฐ์ถฐ์ค์ผ ์ฑ๋ฅ ํฅ์์ด ์ ๋ ํ ๋ฐ ๋ผ๋ ์๊ตฌ์ฌ์ด ์๊ธด๋ค. ์ฝ๋๋ฅผ ๋ฏ์ด๋ณด์ง ์์์ง๋ง ๋ ผ๋ฌธ์ ์ค๋ช ์ ๋ฐ๋ฅด๋ฉด CRAFT ๋ชจ๋ธ์ฒ๋ผ pseudo label์ confidence score๋ฅผ ๋์ ํด์ label์ softํ๊ฒ ์ฌ์ฉํ๋ ๋ฑ์ ์๋๋ ์๋๋ฐ ๊ณผ์ฐ ์ ๋ง ์ ๋์ํ ์ง ๊ถ๊ธํ๋ค. ๋ํ ์์ด์ผ a๋ถํฐ z๊น์ง ๋ช ๊ฐ ์๋๋๊น ๊ด์ฐฎ์๋ฐ ํ๊ตญ์ด์ ๊ฒฝ์ฐ ์ด๋จ์ง๋ ๊ถ๊ธํ ํฌ์ธํธ์ด๋ค.
๊ถ๊ธ์ฆ์ ๋ค ํด๊ฒฐํด์ฃผ์ง๋ ์๋ ๋ ผ๋ฌธ์ด์ง๋ง ์ด๋ฐ ์ข ๋ฅ์ ๋ ผ๋ฌธ์ ํด๋น ๋ถ์ผ์ ์ธ์ฌ์ดํธ๋ฅผ ํค์ฐ๊ฒ ๋์์ค๋ค. ๋ฅ๋ฌ๋ ๋ถ์ผ์ ๋ ผ๋ฌธ๋ค์ ์ ๋ง ๋๋ฌด ๋ง์ด ์์์ ธ ๋์ค๊ณ ์๊ณ , ๋๋ ๋๋ ๋ค '๋ด ๋ฐฉ๋ฒ์ด ์ ์ผ ์ข์ ๋ฐฉ๋ฒ์ด์ผ'๋ฅผ ์๋ฆฌ์น๊ณ ์๋ ์์ค์ ๋ฌด์์ด ๋ ์ค์ํ๊ณ ํจ๊ณผ์ ์ธ์ง ๊ฒ์ฆํด๋ณด๋ ์ฐ๊ตฌ์ด๊ธฐ ๋๋ฌธ์ด๋ค.