aihub_korean_dataset

github2023-01-10 更新2024-05-31 收录

下载链接：

https://github.com/sojjeong/aihub_korean_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于深度学习文本识别模型的韩文字体图像数据集的再加工。数据及json标签文件可在aihub.or.kr/aidata/133下载。

Reprocessing of a Korean font image dataset for deep learning text recognition models. The data and JSON label files can be downloaded at aihub.or.kr/aidata/133.

创建时间：

2020-06-17

原始信息汇总

aihub_korean_dataset 概述

数据集简介

本数据集是为深度学习文本识别模型重新加工的韩语字体图像数据集。
数据及json标签文件可从aihub.or.kr/aidata/133下载。

数据集更新

2020.06.17：仓库创建。
2020.06.19：添加解析器参数。
2020.06.29：添加对错误标签的异常处理，调整json文件内type与input, output文件夹名称匹配。
2020.08.04：重新构造有效标签的字典形式，支持韩文、英文、数字，处理分离的韩文字母和符号等错误标签，增加裁剪尺寸错误的异常处理。
2020.11.10：添加根据宽高比分类图像的代码ratio_classification.py，增加文件描述。

数据集目的

解决图像文件缺失、标签缺失、标签错误、坐标值错误、尺寸错误等问题。

数据集环境

使用python 3.8。
依赖pillow >= 7.0.0和matplotlib >= 3.1.3。

数据集内容

input：图像文件及对应的json标签文件。
output：文本图像文件，命名格式为ImageID_TextID_GT.jpg或GT_ImageID_TextID.jpg。
对于完全错误的标签，需要手动检查。

数据集使用

使用text_crop.py脚本进行图像裁剪，需指定输入json路径、输入图像路径、输出路径、单位选项（字符/词/两者）和命名选项。

搜集汇总

数据集介绍

构建方式

aihub_korean_dataset数据集是为深度学习文本识别模型设计的韩国语字体图像数据集。该数据集通过对原始数据进行重新加工，解决了图像文件缺失、标签错误、坐标值异常等问题。数据来源于AI Hub平台，用户需注册后下载包含图像和JSON标签文件的数据集。数据处理过程中，特别关注了标签的准确性，并对异常情况进行了详细的例外处理。

使用方法

使用aihub_korean_dataset数据集时，用户需通过提供的Python脚本进行图像裁剪和标签处理。脚本支持根据字符或单词进行裁剪，并允许用户选择输出文件的命名规则。用户需指定输入JSON文件路径、输入图像路径和输出路径，以及裁剪单位和命名选项。此方法确保了数据处理的灵活性和高效性，适用于多种文本识别研究场景。

背景与挑战

背景概述

aihub_korean_dataset是由韩国AI Hub机构于2020年创建的一个深度学习文本识别模型专用的韩文字体图像数据集。该数据集旨在为韩语文本识别提供高质量的图像和标注数据，涵盖了韩文、英文、数字等多种字符类型。通过提供详细的JSON标签文件，研究人员可以更高效地进行文本识别模型的训练与验证。该数据集的发布不仅推动了韩语文本识别领域的研究进展，还为多语言文本识别技术的跨文化应用提供了重要参考。

当前挑战

aihub_korean_dataset在构建过程中面临了多方面的挑战。首先，原始数据中存在图像缺失、标签错误、坐标值异常以及尺寸不匹配等问题，这些问题直接影响了数据质量。其次，韩语字符的复杂结构（如合字和分音符号）增加了数据标注的难度，导致部分标签存在错误或遗漏。此外，数据集的构建还需要处理图像裁剪过程中可能出现的尺寸异常和比例失调问题。尽管通过多次更新和优化，部分问题得到了解决，但某些错误标签仍需人工干预和验证，这对数据集的完整性和可靠性提出了更高的要求。

常用场景

经典使用场景

aihub_korean_dataset数据集在深度学习文本识别领域具有广泛的应用，特别是在韩国语文字体的图像识别任务中。该数据集通过提供高质量的韩国语文字体图像及其对应的JSON标签文件，为研究人员和开发者提供了一个标准化的测试平台。经典的使用场景包括训练和评估深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN），以识别和分类韩国语文字体。

解决学术问题

aihub_korean_dataset解决了韩国语文字体识别中的多个关键问题，包括图像文件缺失、标签错误、坐标值异常等。通过数据集的重新加工和优化，研究人员能够获得更加准确和一致的数据，从而提高了模型的训练效果和识别精度。该数据集的出现填补了韩国语文字体识别领域的数据空白，推动了相关学术研究的进展。

实际应用

在实际应用中，aihub_korean_dataset被广泛用于开发韩国语文字体识别系统，如自动文档处理、手写文字识别和光学字符识别（OCR）系统。这些系统在银行、政府机构和教育机构中具有重要的应用价值，能够显著提高文档处理的效率和准确性。此外，该数据集还可用于开发多语言混合识别系统，进一步提升跨语言文本识别的能力。

数据集最近研究