'🏛 Research/OCR' 카테고리의 글 목록

본 논문은 Naver Clova에서 CVPR 2019 에 발표한 Text Detection 논문으로, CRAFT 라는 모델을 제안한다. Text Detection 분야에서 워낙 유명난 논문이고 개인적으로 텍스트 검출을 위해 텍스트의 특성과 딥러닝의 학습 특성을 아주 효율적으로 이용한 매력적인 연구라 생각한다. 자세한 설명은 다른 블로그에서도 잘 나와있으니 나는 모델 학습을 위한 핵심적인 부분만 정리하려 한다. CRAFT 모델의 핵심 CRAFT 모델은 텍스트 검출을 위해 단어 bbox를 바로 예측하는 것이 아니라, 문자의 위치를 나타내는 region score, 문자간 거리를 나타내는 affinity score를 예측 이를 위해서는 character-level annotation이 필요한데 문자 하나 하나..

본 논문은 CVPR 2021에서 발표된 Text Recognition 논문으로, TRBA 모델 ('What is wrong with scene text recognition model comparisons? dataset and model analysis')을 제안한 백정훈 님의 논문이기도 하다. 본문 내용 Scene Text Recognition (STR) 연구에서는 리얼 데이터가 부족하기 때문에 일반적으로 대규모 합성 데이터셋을 사용하여 학습을 진행한다. 때문에 암묵적으로 리얼 데이터만으로는 STR 모델 학습이 거의 불가능하다는 암묵적인 상식(?)이 있었다고 한다. 하지만 본 논문에서는 이 상식이 STR 연구를 방해했다고 말한다. 본 논문에서는 최근에 축적된 리얼 데이터셋을 통합하고 지정된 실제 데이..

본 논문은 ICCV 2019에서 Naver Clova가 발표한 Text Recognition 논문이다. (공식 레퍼지토리) 제안하는 내용 기존의 정리되어 있지 않던 STR(Scene Text Recognition) dataset을 정리하고 STR 을 4단계로 나누어 정립했다. 논문에서 제안한 STR 4단계는 아래와 같고, 각 단계의 모듈별 기여도를 실험을 통해 제공하고 있다. Transformation Stage : TPS(Thin-Plate Spline)이라는 STN(Spatial Transformation Network)와 유사한 방법으로 이미지 노멀라이즈 (왜곡되어 있는 텍스트를 인식 모델이 가장 인식하기 쉬운 형태로 변환) Feature Extraction Stage : 일반적인 CNN 아키텍처...

텍스트 인식에 포커스가 맞춰진 augmentation이 있을까 싶어 논문을 찾던중 ICCV 2021 학회에서 발표된 STR에서의 Data augmentation 논문이 있어서 정리하려 한다. Abstract 일부Scene Text Recognition(STR) 모델은 실제 데이터를 사용해서 평가하기 때문에 학습 데이터와 테스트 데이터 분포 간의 불일치는 주로 nosie, artifacts, geometry, structure 등의 영향을 받아서 성능 저하로 이어진다. 본 논문에서는 이를 개선하기 위해 36개의 image augmenation function으로 구성된 STRAug를 소개한다. 각 함수는 자연 장면에서 찾을 수 있거나 카메라 센서에 의해 발생하거나 신호 처리 작업 중 발생하는 이미지 속성을..

요즘은 문서를 사진으로 찍어서 회사나 공공 기관에 제출하는 경우가 많다. 이 때 회사는 받은 문서에서 OCR 기술을 사용해서 텍스트를 디지털화시켜서 저장하게 된다. 그런데 휴대폰으로 문서 사진을 찍는 경우 그림자가 많이 생겨서 이미지의 퀄리티가 떨어지는 경우가 많고 이는 텍스트 인식 오류를 발생하게 한다. 그런데... 이미지에서 그림자를 제거하는 연구가 존재한다고 한다. 역시 세상 사람들은 참 똑똑하고 없는 게 잘 없다... Paper : BEDSR-Net A Deep Shadow Removal Network from a Single Document Image / CVPR 2020 github : https://github.com/IsHYuhi/BEDSR-Net_A_Deep_Shadow_Removal_..

https://github.com/JaidedAI/EasyOCR GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chines Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ ... github.com OCR(Optical Character..

티스토리툴바