본문 바로가기
728x90

Text recognition6

LMDB 형식 데이터셋이란? | 텍스트 인식 데이터셋 포맷 LMDB (Lightning Memory-Mapped Database) lmdb는 Lightning Memory-Mapped Database의 약자로, embedded key-value 데이터베이스 엔진이다. lmdb는 파일 시스템에 저장된 데이터를 메모리에 매핑하여 데이터를 효율적으로 읽고 쓸 수 있도록 한다. 이는 빠른 읽기와 쓰기, 쓰레드 안전성, 낮은 메모리 사용량 등의 장점을 가지고 있어, 대규모 데이터셋을 처리할 때 매우 효율적이다. lmdb 데이터베이스는 키-값 쌍의 형태로 데이터를 저장하는데, 여기서 키는 고유한 문자열이며, 값은 이 문자열에 연관된 데이터입니다. 이러한 특징은 텍스트 인식 분야에서 매우 유용하다. 예를 들어, 이미지와 해당 이미지에 포함된 텍스트 라벨(GT)을 저장하는 데.. 2023. 4. 14.
[논문 리뷰] What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels 본 논문은 CVPR 2021에서 발표된 Text Recognition 논문으로, TRBA 모델 ('What is wrong with scene text recognition model comparisons? dataset and model analysis')을 제안한 백정훈 님의 논문이기도 하다. 본문 내용 Scene Text Recognition (STR) 연구에서는 리얼 데이터가 부족하기 때문에 일반적으로 대규모 합성 데이터셋을 사용하여 학습을 진행한다. 때문에 암묵적으로 리얼 데이터만으로는 STR 모델 학습이 거의 불가능하다는 암묵적인 상식(?)이 있었다고 한다. 하지만 본 논문에서는 이 상식이 STR 연구를 방해했다고 말한다. 본 논문에서는 최근에 축적된 리얼 데이터셋을 통합하고 지정된 실제 데이.. 2023. 3. 12.
[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis 본 논문은 ICCV 2019에서 Naver Clova가 발표한 Text Recognition 논문이다. (공식 레퍼지토리) 제안하는 내용 기존의 정리되어 있지 않던 STR(Scene Text Recognition) dataset을 정리하고 STR 을 4단계로 나누어 정립했다. 논문에서 제안한 STR 4단계는 아래와 같고, 각 단계의 모듈별 기여도를 실험을 통해 제공하고 있다. Transformation Stage : TPS(Thin-Plate Spline)이라는 STN(Spatial Transformation Network)와 유사한 방법으로 이미지 노멀라이즈 (왜곡되어 있는 텍스트를 인식 모델이 가장 인식하기 쉬운 형태로 변환) Feature Extraction Stage : 일반적인 CNN 아키텍처... 2023. 3. 12.
[논문 리뷰] Data Augmentation for Scene Text Recognition 텍스트 인식에 포커스가 맞춰진 augmentation이 있을까 싶어 논문을 찾던중 ICCV 2021 학회에서 발표된 STR에서의 Data augmentation 논문이 있어서 정리하려 한다. Abstract 일부 Scene Text Recognition(STR) 모델은 실제 데이터를 사용해서 평가하기 때문에 학습 데이터와 테스트 데이터 분포 간의 불일치는 주로 nosie, artifacts, geometry, structure 등의 영향을 받아서 성능 저하로 이어진다. 본 논문에서는 이를 개선하기 위해 36개의 image augmenation function으로 구성된 STRAug를 소개한다. 각 함수는 자연 장면에서 찾을 수 있거나 카메라 센서에 의해 발생하거나 신호 처리 작업 중 발생하는 이미지 속성.. 2023. 3. 11.
[pytorch] Dataloader의 'collate_fn'을 사용한 이미지 패딩. 가변 사이즈의 이미지를 batch로 묶어 Dataloader에 주입하는 방법. Pytorch의 Dataloader는 인덱스에 따른 데이터를 반환해주는 dataset, 가져올 데이터의 인덱스를 컨트롤하는 sampler와 batch로 묶인 데이터를 batch로 묶을 때 필요한 함수를 정의하는 collate_fn 등의 파라미터를 가진다. 딥러닝 모델을 학습 또는 인퍼런스 하다보면 가변 사이즈의 데이터를 모델에 주입해야 할 경우가 생기는데, 이미지 데이터의 경우 일반적으로 특정 사이즈(e.g. 224x224)로 이미지를 리사이즈해서 사용하는 경우가 많다. 그래서 일반적으로 퍼블릭 데이터를 사용하는 경우 별 생각없이 transforms.Resize() 함수를 사용해서 모든 데이터를 일괄된 사이즈로 변경해서 사용하는 경우가 대부분이다. 하지만, 실제 환경에서 일괄된 이미지 리사이징을 사용하는.. 2023. 3. 3.
[오픈 소스] EasyOCR 텍스트 검출/인식 AI 모델을 무료로 쉽게 사용해보자 https://github.com/JaidedAI/EasyOCR GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chines Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. - GitHub - JaidedAI/EasyOCR: Ready-to-use OCR with 80+ ... github.com OCR(Optical Character.. 2022. 12. 16.
728x90