ICDAR17_Korean, ICDAR19_Korean, ICDAR17, ICDAR19, boostcamp, aihub
收藏github2022-12-20 更新2024-05-31 收录
下载链接:
https://github.com/boostcampaitech4lv23cv1/level2_dataannotation_cv-level-cv-02
下载链接
链接失效反馈官方服务:
资源简介:
用于数据标注和处理的数据集,包括ICDAR17_Korean, ICDAR19_Korean等,用于进行数据集的完整性检查、下载和分割。
A dataset for data annotation and processing, including ICDAR17_Korean, ICDAR19_Korean, etc., used for integrity checking, downloading, and segmentation of datasets.
创建时间:
2022-12-06
原始信息汇总
数据集概述
数据集标识
ko17: ICDAR17_Koreanko19: ICDAR19_Koreanfull17: ICDAR17full19: ICDAR19camper: boostcampaihub: aihub
数据集使用
- 当前使用的数据集: ["ko17", "full19"]
数据集完整性检查
- 使用命令:
python integrity_check.py --data_name ko19
数据集下载
- 推荐从谷歌驱动器下载数据集。
- 使用脚本:
sh icdar19_gdrive.sh从谷歌驱动器下载数据集。 - 使用脚本:
sh ICDAR19_download.sh从远程ICDAR19服务器下载数据集。
数据集分割
- 支持通过指定比例分割数据集。
- 示例命令:
python split_dataset.py --data_name ko19 --split_ratio 0.9将数据集按90%和10%的比例分割。
搜集汇总
数据集介绍

构建方式
该数据集通过基于ISSUE的协作方式进行构建,确保了数据标注过程的透明性和可追溯性。数据集的构建涉及多个子集,包括ICDAR17_Korean、ICDAR19_Korean、ICDAR17、ICDAR19、boostcamp和aihub,每个子集通过特定的标识符进行管理。数据集的完整性检查通过专门的脚本`integrity_check.py`进行,确保数据的准确性和一致性。
特点
该数据集涵盖了多种语言和场景的文本数据,特别是韩语文本的丰富性使其在OCR和自然语言处理领域具有重要价值。数据集的特点在于其多源性和多样性,能够支持跨语言和跨领域的文本识别任务。此外,数据集的分割功能允许用户根据需求按比例划分数据,便于模型训练和验证。
使用方法
用户可以通过Google Drive或远程服务器下载数据集,具体操作通过提供的脚本`icdar19_gdrive.sh`和`ICDAR19_download.sh`实现。下载后,用户可以使用`split_dataset.py`脚本按指定比例分割数据集,以适应不同的实验需求。数据集的完整性检查通过`integrity_check.py`脚本进行,确保数据质量。
背景与挑战
背景概述
ICDAR17_Korean与ICDAR19_Korean数据集是专注于韩文文本识别的重要资源,由国际文档分析与识别大会(ICDAR)于2017年和2019年分别发布。这些数据集由多个研究机构共同开发,旨在解决韩文文本在自然场景中的识别问题。ICDAR系列数据集在文档分析与识别领域具有广泛的影响力,推动了光学字符识别(OCR)技术的发展,特别是在多语言环境下的文本识别任务中。这些数据集的发布为研究人员提供了丰富的实验材料,促进了韩文文本识别算法的创新与优化。
当前挑战
ICDAR17_Korean与ICDAR19_Korean数据集在构建与应用过程中面临多重挑战。首先,韩文文本的复杂结构,如音节块和组合字符,增加了识别的难度,要求算法具备更高的鲁棒性。其次,数据集的构建需要大量高质量的标注数据,而韩文文本的多样性使得标注过程耗时且易出错。此外,数据集的下载与分割过程中,技术问题如网络请求限制和文件完整性校验也带来了额外的复杂性。这些挑战不仅考验了数据集的构建质量,也对后续的研究与应用提出了更高的技术要求。
常用场景
经典使用场景
ICDAR17_Korean和ICDAR19_Korean数据集广泛应用于光学字符识别(OCR)领域,特别是在处理韩文文本的场景中。这些数据集为研究者提供了丰富的韩文文本图像样本,涵盖了从简单到复杂的多种文本布局和字体样式,极大地促进了韩文OCR技术的发展。
解决学术问题
这些数据集解决了韩文OCR领域中的关键问题,如文本检测、字符分割和识别等。通过提供高质量的标注数据,研究者能够开发出更精确的算法,提升韩文文本的识别准确率,尤其是在复杂背景和多字体环境下的表现。
衍生相关工作
基于ICDAR17_Korean和ICDAR19_Korean数据集,许多经典的研究工作得以展开。例如,研究者开发了基于深度学习的韩文OCR模型,这些模型在韩文文本识别任务中表现出色。此外,这些数据集还催生了一系列关于多语言OCR系统的研究,推动了OCR技术的全球化发展。
以上内容由遇见数据集搜集并总结生成



