본문 바로가기
728x90

텍스트 인식3

LMDB 형식 데이터셋이란? | 텍스트 인식 데이터셋 포맷 LMDB (Lightning Memory-Mapped Database) lmdb는 Lightning Memory-Mapped Database의 약자로, embedded key-value 데이터베이스 엔진이다. lmdb는 파일 시스템에 저장된 데이터를 메모리에 매핑하여 데이터를 효율적으로 읽고 쓸 수 있도록 한다. 이는 빠른 읽기와 쓰기, 쓰레드 안전성, 낮은 메모리 사용량 등의 장점을 가지고 있어, 대규모 데이터셋을 처리할 때 매우 효율적이다. lmdb 데이터베이스는 키-값 쌍의 형태로 데이터를 저장하는데, 여기서 키는 고유한 문자열이며, 값은 이 문자열에 연관된 데이터입니다. 이러한 특징은 텍스트 인식 분야에서 매우 유용하다. 예를 들어, 이미지와 해당 이미지에 포함된 텍스트 라벨(GT)을 저장하는 데.. 2023. 4. 14.
[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis 본 논문은 ICCV 2019에서 Naver Clova가 발표한 Text Recognition 논문이다. (공식 레퍼지토리) 제안하는 내용 기존의 정리되어 있지 않던 STR(Scene Text Recognition) dataset을 정리하고 STR 을 4단계로 나누어 정립했다. 논문에서 제안한 STR 4단계는 아래와 같고, 각 단계의 모듈별 기여도를 실험을 통해 제공하고 있다. Transformation Stage : TPS(Thin-Plate Spline)이라는 STN(Spatial Transformation Network)와 유사한 방법으로 이미지 노멀라이즈 (왜곡되어 있는 텍스트를 인식 모델이 가장 인식하기 쉬운 형태로 변환) Feature Extraction Stage : 일반적인 CNN 아키텍처... 2023. 3. 12.
[pytorch] Dataloader의 'collate_fn'을 사용한 이미지 패딩. 가변 사이즈의 이미지를 batch로 묶어 Dataloader에 주입하는 방법. Pytorch의 Dataloader는 인덱스에 따른 데이터를 반환해주는 dataset, 가져올 데이터의 인덱스를 컨트롤하는 sampler와 batch로 묶인 데이터를 batch로 묶을 때 필요한 함수를 정의하는 collate_fn 등의 파라미터를 가진다. 딥러닝 모델을 학습 또는 인퍼런스 하다보면 가변 사이즈의 데이터를 모델에 주입해야 할 경우가 생기는데, 이미지 데이터의 경우 일반적으로 특정 사이즈(e.g. 224x224)로 이미지를 리사이즈해서 사용하는 경우가 많다. 그래서 일반적으로 퍼블릭 데이터를 사용하는 경우 별 생각없이 transforms.Resize() 함수를 사용해서 모든 데이터를 일괄된 사이즈로 변경해서 사용하는 경우가 대부분이다. 하지만, 실제 환경에서 일괄된 이미지 리사이징을 사용하는.. 2023. 3. 3.
728x90