[논문 리뷰] Character Region Awareness for Text Detection / CRAFT / 텍스트 검출

본 논문은 Naver Clova에서 CVPR 2019 에 발표한 Text Detection 논문으로, CRAFT 라는 모델을 제안한다. Text Detection 분야에서 워낙 유명난 논문이고 개인적으로 텍스트 검출을 위해 텍스트의 특성과 딥러닝의 학습 특성을 아주 효율적으로 이용한 매력적인 연구라 생각한다. 자세한 설명은 다른 블로그에서도 잘 나와있으니 나는 모델 학습을 위한 핵심적인 부분만 정리하려 한다.

CRAFT 모델의 핵심

CRAFT 모델은 텍스트 검출을 위해 단어 bbox를 바로 예측하는 것이 아니라, 문자의 위치를 나타내는 region score, 문자간 거리를 나타내는 affinity score를 예측
이를 위해서는 character-level annotation이 필요한데 문자 하나 하나 bbox를 만드는 작업은 생각만 해도 끔찍하게 오래걸리기 때문에 pseudo-GT를 생성해서 학습하는 weakly-supervised learning 방법을 사용
Character 단위 bbox가 존재하면 위와 같이 region score와 affinity score를 생성하는 알고리즘 사용
물론 특정 character 들의 조합이 하나의 단어라는 정보는 가지고 있어야됨 - 위의 경우 p, e, a, c, e가 모여 peace라는 한 단어라는 정보 필요 (엄밀히 따지면 텍스트 정보는 필요없고, 특정 character bbox가 모여 하나의 단어를 이룬다는 정보 필요)

CRAFT 모델 학습 과정

Character-level GT 가 포함된 데이터셋으로 Interim model 을 학습 (Train with Synthetic Image)
Interim model 을 개선하기 위해 word-level annotation 만 되어 있는 데이터셋으로 character level pseudo-GT annotation data를 생성 (Generate Pseudo-GT)
Character-level GT와 생성한 pseudo-GT로 함께 모델을 학습. Pseudo-GT는 정확한 GT는 아니기 때문에 character 개수를 정확하게 예측했는지에 따라 confidence score 를 반영하여 학습 (weakly supervised learning) (Train with Real Image + Train with Synthetic Image)

* 사실상 2, 3번 단계는 동시에 진행. 3번 단계에서는 Real data만을 이용해서 학습할 수도 있고, Synthetic + Real 데이터로 학습할 수도 있음.

* 주의사항 : 논문에서는 데이터셋을 Synthetic Image, Real Image 로 표현했는데 사실 정확하게 말하면 Synthetic Image 는 character-level GT가 있는 데이터셋을 뜻하고 Real Image는 word-level GT만 있는 데이터셋을 뜻한다. 당연히 Synthetic Image는 합성데이터이기 때문에 character 정보를 가지고 있지만, Real Image의 경우 word-level GT만 가지고 있을 수도 있고 character-level GT를 가지고 있을 수도 있다. 논문에서 사용하는 데이터셋만 생각하는 경우 논문의 표현이 맞지만 현실의 경우엔 다르기 때문에 헷갈리지 않기를...

Train with Synthetic Image

개수가 적은 character level annotation 이 되어 있는 데이터로 Interim model 을 학습
Pseudo-GT를 생성하기 위한 pre-train을 진행하는 단계로 볼 수 있음
이 단계에서 어느정도 텍스트의 문자 위치(region score)와 문자간 거리(affinity score)를 예측하는 모델을 만들어 놔야 정상적인 학습이 가능
- Interim 모델이 region, affinity score를 엉터리로 예측하면 이후에 생성하는 pseudo-GT는 더 엉망일테니

Generate Pseudo-GT

Pseudo-GT를 생성하기 위해 word-level annotation(단어 bbox)와 텍스트 정보(엄밀히 말하면 단어가 몇 개의 character 로 이루어져 있는지에 대한 정보)는 있어야됨
Synthetic Image(with GT)로 학습한 Interim model 의 inference 결과를 pseudo-GT 로 활용
Interim model 로 생성한 결과를 그대로 label 로 쓰기에는 오차가 많기 때문에 예측한 character 개수와 실제 character 개수에 따른 confidence score 를 반영
- e.g. 5개의 글자로 구성된 단어를 5개로 예측한 경우 → confidence score = 5/5, 3개로 예측한 경우 → confidence score= 3/5
- 만약 confidence score < 1/2 인 경우 단어를 동일한 사이즈의 칸으로 잘라서 character bbox gt 로 사용

Train with Real Image & Train with Synthetic Image

설명을 위해 Pseudo-GT 생성과 학습 단계를 나누어 놨지만, 실제로는 동시에 진행

생성한 pseudo-GT 와 기존 GT data 를 모두 활용하여 모델 학습.
- Character-level annotation을 가진 데이터셋 -> GT 데이터로 학습
- Word-level annotation을 가진 데이터셋 -> Pseudo-GT 데이터로 학습
- CRAFT 오피셜 학습 코드는 공개되지 않았지만, EasyOCR에서 공개한 CRAFT 학습 코드를 보면 GPU를 반반 나누어 한 쪽은 GT 데이터로 모델을 학습하고 다른 한 쪽은 Pseudo-GT를 생성하고 weakly-supervised learning을 진행
pseudo-GT 는 confidence score 적용

실험 결과

학습을 진행할 수록 character의 위치를 찾는 region score의 표현력이 좋아지는 것을 볼 수 있음
pre-train 단계인 Interim 모델을 만드는 과정에서 어느정도 좋은 표현력을 가져야 성공적으로 weakly supervised learning을 진행할 수 있음

한국어 실험 결과

한국어로도 학습을 진행해보면 region score와 affinity score를 꽤 잘 예측하는 것을 볼 수 있다.

'🏛 Research > OCR' 카테고리의 다른 글

[논문 리뷰] What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels (0)	2023.03.12
[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis (0)	2023.03.12
[논문 리뷰] Data Augmentation for Scene Text Recognition (0)	2023.03.11
[연구 소개] 문서 이미지 그림자제거 / 문서 OCR 결과를 향상시키기 위해 (0)	2022.12.20
[오픈 소스] EasyOCR 텍스트 검출/인식 AI 모델을 무료로 쉽게 사용해보자 (0)	2022.12.16

'🏛 Research > OCR' 카테고리의 다른 글

티스토리툴바