한국어 글자체 이미지 데이터셋

github2021-12-23 更新2024-05-31 收录

下载链接：

https://github.com/jentiai/Korean-Light-OCR-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由AIHUB发布，包含约100,000个图像/标注，用于文本在野外的检测，涵盖道路交通标志、商品、招牌等多个类别。数据集被用于模型评估，其中约9,900个图像被选作测试数据。

This dataset, released by AIHUB, comprises approximately 100,000 images/annotations for text detection in the wild, covering various categories such as road traffic signs, merchandise, and signboards. The dataset is utilized for model evaluation, with about 9,900 images selected as test data.

创建时间：

2021-12-13

原始信息汇总

数据集概述

1. 数据集来源与组成

来源：该数据集使用了AIHUB公开的“한국어 글자체 이미지 데이터셋”中的Text in the Wild部分。
组成：数据集包含约100,000个图像/标注，涵盖了道路交通标志、商品、招牌等多个类别。
筛选：从100,000个图像/标注中，按每个类别10%的比例筛选出约9,900个图像用于模型评估。筛选后的测试数据列表可在dataset/aihub_test_image_list.txt中查看。

2. 数据集结构与处理

结构：解压后的AIHUB数据集目录结构如下：

AIHUB |---book |---Goods |---Signboard |---Traffic_Sign |---textinthewild_data_info.json
处理：通过执行make_dataset.py脚本，可以根据提供的列表文件分离出测试图像。脚本参数包括AIHUB数据集路径、列表文件路径和输出目录路径。

3. API使用

目的：使用KaKao OCR API和Naver OCR API对分离出的测试图像进行处理，生成结果的JSON文件。
执行命令：

python kakao.py [path/to/image] [appkey] python naver.py [path/to/image] [api_url] [api_key] python jenti.py [path/to/image]
结果：执行脚本后，在当前目录下生成{kakao, naver, jenti}.json文件，用于评估各OCR API的性能。

4. 数据集支持

资助信息：该数据集是2021年由政府资助的研究成果的一部分，具体资助信息如下：
- 과제번호: 2021-0-00023
- 연구사업명: 인공지능산업원천기술개발
- 연구과제명: 복합재난 상황에서의 문제해결을 위한 경량화 한글 탐지/인식 기술 개발
- 주관연구기관: 주식회사 젠티

搜集汇总

数据集介绍

构建方式

한국어 글자체 이미지 데이터셋은 AIHUB에서 공개한 Text in the Wild 데이터셋을 기반으로 구축되었습니다. 이 데이터셋은 도로교통표지판, 상품, 간판 등 다양한 카테고리로 분류된 약 100,000개의 이미지와 주석을 포함하고 있습니다. 연구진은 각 카테고리별로 10%의 데이터를 선별하여 약 9,900개의 이미지를 모델 평가용으로 사용하였으며, 이는 dataset/aihub_test_image_list.txt 파일에서 확인할 수 있습니다.

特点

이 데이터셋은 한국어 글자체의 다양한 형태를 포괄하며, 특히 실생활에서 흔히 접할 수 있는 텍스트 이미지를 포함하고 있습니다. 각 이미지는 고해상도로 제공되며, 정확한 주석 정보를 포함하고 있어 OCR 모델의 학습 및 평가에 적합합니다. 또한, 데이터셋은 카테고리별로 분류되어 있어 특정 유형의 텍스트에 대한 모델 성능을 세부적으로 분석할 수 있습니다.

使用方法

데이터셋 사용을 위해 먼저 AIHUB 데이터셋의 압축을 해제한 후, 제공된 make_dataset.py 스크립트를 실행하여 테스트 이미지를 분리할 수 있습니다. 이 스크립트는 --aihub, --list_path, --output 인자를 통해 데이터 디렉토리와 출력 디렉토리를 지정할 수 있습니다. 분리된 테스트 이미지는 Kakao OCR API, Naver OCR API 및 Jenti OCR API를 통해 평가할 수 있으며, 각 API의 결과는 json 파일로 저장됩니다. 이를 통해 다양한 OCR 모델의 성능을 비교하고 분석할 수 있습니다.

背景与挑战

背景概述

한국어 글자체 이미지 데이터셋은 2021년에 AIHUB에서 공개된 데이터셋으로, 주식회사 젠티가 주관한 '복합재난 상황에서의 문제해결을 위한 경량화 한글 탐지/인식 기술 개발' 연구과제의 일환으로 개발되었습니다. 이 데이터셋은 도로교통표지판, 상품, 간판 등 다양한 카테고리의 한국어 텍스트 이미지와 해당 텍스트의 주석(annotation)을 포함하고 있으며, 약 100,000개의 이미지로 구성되어 있습니다. 이 데이터셋은 한국어 텍스트 인식 기술의 발전에 중요한 역할을 하며, 특히 경량화된 OCR 기술의 개발과 평가에 활용되고 있습니다.

当前挑战

한국어 글자체 이미지 데이터셋은 한국어 텍스트 인식 기술의 발전을 위해 설계되었으나, 여러 도전 과제가 존재합니다. 첫째, 다양한 환경에서 촬영된 이미지의 품질 차이로 인해 텍스트 인식의 정확도가 저하될 수 있습니다. 둘째, 데이터셋의 구축 과정에서 다양한 카테고리의 이미지를 수집하고 주석을 달아야 하는데, 이는 많은 시간과 노력이 요구됩니다. 셋째, OCR API의 일일 사용 제한으로 인해 대규모 데이터셋에 대한 평가가 제한될 수 있습니다. 이러한 도전 과제들은 한국어 텍스트 인식 기술의 성능 향상을 위해 해결해야 할 중요한 문제들입니다.

常用场景

经典使用场景

한국어 글자체 이미지 데이터셋은 주로 광학 문자 인식(OCR) 기술의 개발과 평가에 활용됩니다. 이 데이터셋은 다양한 환경에서 촬영된 한국어 텍스트 이미지를 포함하며, 특히 도로교통표지판, 상품, 간판 등 다양한 카테고리로 분류된 이미지를 제공합니다. 이를 통해 연구자들은 실제 환경에서의 OCR 성능을 정확히 평가하고 개선할 수 있습니다.

实际应用

실제 응용 측면에서, 이 데이터셋은 공공 안전, 교통 관리, 소매업 등 다양한 분야에서 한국어 텍스트 인식 기술을 적용하는 데 사용됩니다. 예를 들어, 도로교통표지판의 자동 인식 시스템 개발이나 상품 포장의 텍스트 분석 등에 활용될 수 있으며, 이는 관련 산업의 자동화와 효율성을 크게 향상시킵니다.

衍生相关工作

이 데이터셋을 기반으로 한 여러 연구들은 한국어 OCR 기술의 최신 동향을 반영하며, 특히 경량화된 모델 개발에 초점을 맞춘 연구들이 주목받고 있습니다. 이러한 연구들은 복합재난 상황에서의 문제해결을 위한 기술 개발에 기여하며, 이는 더 넓은 범위의 응용 가능성을 열어줍니다.

以上内容由遇见数据集搜集并总结生成