ICDAR17_Korean, ICDAR19_Korean, ICDAR17, ICDAR19, boostcamp, aihub

github2022-12-20 更新2024-05-31 收录

下载链接：

https://github.com/boostcampaitech4lv23cv1/level2_dataannotation_cv-level-cv-02

下载链接

链接失效反馈

官方服务：

资源简介：

用于数据标注和处理的数据集，包括ICDAR17_Korean, ICDAR19_Korean等，用于进行数据集的完整性检查、下载和分割。

A dataset for data annotation and processing, including ICDAR17_Korean, ICDAR19_Korean, etc., used for integrity checking, downloading, and segmentation of datasets.

创建时间：

2022-12-06

原始信息汇总

数据集概述

数据集标识

ko17: ICDAR17_Korean
ko19: ICDAR19_Korean
full17: ICDAR17
full19: ICDAR19
camper: boostcamp
aihub: aihub

数据集使用

当前使用的数据集: ["ko17", "full19"]

数据集完整性检查

使用命令: python integrity_check.py --data_name ko19

数据集下载

推荐从谷歌驱动器下载数据集。
使用脚本: sh icdar19_gdrive.sh 从谷歌驱动器下载数据集。
使用脚本: sh ICDAR19_download.sh 从远程ICDAR19服务器下载数据集。

数据集分割

支持通过指定比例分割数据集。
示例命令: python split_dataset.py --data_name ko19 --split_ratio 0.9 将数据集按90%和10%的比例分割。

搜集汇总

数据集介绍

构建方式

该数据集通过基于ISSUE的协作方式进行构建，确保了数据标注过程的透明性和可追溯性。数据集的构建涉及多个子集，包括ICDAR17_Korean、ICDAR19_Korean、ICDAR17、ICDAR19、boostcamp和aihub，每个子集通过特定的标识符进行管理。数据集的完整性检查通过专门的脚本`integrity_check.py`进行，确保数据的准确性和一致性。

特点

该数据集涵盖了多种语言和场景的文本数据，特别是韩语文本的丰富性使其在OCR和自然语言处理领域具有重要价值。数据集的特点在于其多源性和多样性，能够支持跨语言和跨领域的文本识别任务。此外，数据集的分割功能允许用户根据需求按比例划分数据，便于模型训练和验证。

使用方法

用户可以通过Google Drive或远程服务器下载数据集，具体操作通过提供的脚本`icdar19_gdrive.sh`和`ICDAR19_download.sh`实现。下载后，用户可以使用`split_dataset.py`脚本按指定比例分割数据集，以适应不同的实验需求。数据集的完整性检查通过`integrity_check.py`脚本进行，确保数据质量。

背景与挑战

背景概述

ICDAR17_Korean与ICDAR19_Korean数据集是专注于韩文文本识别的重要资源，由国际文档分析与识别大会（ICDAR）于2017年和2019年分别发布。这些数据集由多个研究机构共同开发，旨在解决韩文文本在自然场景中的识别问题。ICDAR系列数据集在文档分析与识别领域具有广泛的影响力，推动了光学字符识别（OCR）技术的发展，特别是在多语言环境下的文本识别任务中。这些数据集的发布为研究人员提供了丰富的实验材料，促进了韩文文本识别算法的创新与优化。

当前挑战

ICDAR17_Korean与ICDAR19_Korean数据集在构建与应用过程中面临多重挑战。首先，韩文文本的复杂结构，如音节块和组合字符，增加了识别的难度，要求算法具备更高的鲁棒性。其次，数据集的构建需要大量高质量的标注数据，而韩文文本的多样性使得标注过程耗时且易出错。此外，数据集的下载与分割过程中，技术问题如网络请求限制和文件完整性校验也带来了额外的复杂性。这些挑战不仅考验了数据集的构建质量，也对后续的研究与应用提出了更高的技术要求。

常用场景

经典使用场景

ICDAR17_Korean和ICDAR19_Korean数据集广泛应用于光学字符识别（OCR）领域，特别是在处理韩文文本的场景中。这些数据集为研究者提供了丰富的韩文文本图像样本，涵盖了从简单到复杂的多种文本布局和字体样式，极大地促进了韩文OCR技术的发展。

解决学术问题

这些数据集解决了韩文OCR领域中的关键问题，如文本检测、字符分割和识别等。通过提供高质量的标注数据，研究者能够开发出更精确的算法，提升韩文文本的识别准确率，尤其是在复杂背景和多字体环境下的表现。

衍生相关工作

基于ICDAR17_Korean和ICDAR19_Korean数据集，许多经典的研究工作得以展开。例如，研究者开发了基于深度学习的韩文OCR模型，这些模型在韩文文本识别任务中表现出色。此外，这些数据集还催生了一系列关于多语言OCR系统的研究，推动了OCR技术的全球化发展。

以上内容由遇见数据集搜集并总结生成