bsmock/ICDAR-2013.c

Name: bsmock/ICDAR-2013.c
Creator: bsmock
Published: 2023-09-07 04:49:39
License: 暂无描述

Hugging Face2023-09-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bsmock/ICDAR-2013.c

下载链接

链接失效反馈

官方服务：

资源简介：

ICDAR-2013.c数据集于2023年发布，是原始ICDAR-2013数据集的一个分支，由不同作者进行了修改。该数据集包含对原始数据集中小错误的修正，以及自动修正（如规范化），以纠正过度分割并使数据集与其他表格结构识别（TSR）数据集（如PubTables-1M）更加一致。更多关于此版本数据集和手动修正的详细信息，请参阅相关论文。

The ICDAR-2013.c dataset was released in 2023 as a modified fork of the original ICDAR-2013 dataset, with revisions performed by multiple authors. This dataset includes corrections for minor errors present in the original dataset, as well as automated corrections such as normalization to fix over-segmentation issues and align the dataset more closely with other table structure recognition (TSR) datasets including PubTables-1M. For more detailed information about this dataset version and its manual corrections, please refer to the relevant academic papers.

提供机构：

bsmock

原始信息汇总

ICDAR-2013.c 数据集

概述

ICDAR-2013.c 数据集是在2023年发布的，可以视为原始ICDAR-2013数据集的一个修改版本。该数据集包含了对原始数据集中小错误的手动修正和自动化修正，如规范化处理，以纠正过度分割问题，并使其与其他TSR数据集（如PubTables-1M）更加一致。

内容

手动修正：对原始数据集中的小标注错误进行手动修正。
自动化修正：进行规范化处理，以纠正过度分割问题，并提高与其他TSR数据集的一致性。

引用

如果您的研究使用了此数据集，请引用以下文献：

@article{smock2023aligning, title={Aligning benchmark datasets for table structure recognition}, author={Smock, Brandon and Pesala, Rohith and Abraham, Robin}, booktitle={International Conference on Document Analysis and Recognition}, pages={371--386}, year={2023}, organization={Springer} }

原始数据集

原始ICDAR-2013数据集是在ICDAR 2013 Table Competition中发布的。原始数据集没有已知的许可证，但通常被认为是公开的，因此我们理解为原始数据没有许可证限制。

搜集汇总

数据集介绍

构建方式

ICDAR-2013.c数据集是在原始ICDAR 2013表格竞赛数据集基础上，由不同作者进行的分支修改版本。该数据集的构建涉及对原始数据集的细微标注错误进行手动校正，并采用自动化校正方法，如规范化和过度分割修正，以增强数据集与其他表格结构识别数据集，如PubTables-1M的一致性。

特点

该数据集的特点在于包含了对原始ICDAR-2013数据集的手动和自动化校正，使其在表格结构识别领域的标注质量更为精准。此外，数据集遵循CDLA-Permissive-2.0许可，便于研究者自由使用与分发。其校正细节在相关研究中有所阐述，为该领域的研究提供了可靠的实验基础。

使用方法

使用ICDAR-2013.c数据集时，研究者可以参考其GitHub页面上的构建代码，以便更好地理解和利用数据集。在引用该数据集进行学术发表时，应遵循指定的引用格式，以承认数据集贡献者的工作。数据集可通过Hugging Face平台获取，但原始数据集的下载链接已不再可用，需通过平台提供的副本进行访问。

背景与挑战

背景概述

在表格结构识别领域，ICDAR-2013.c数据集作为ICDAR 2013表格竞赛原始数据集的一个分支，于2023年由Smock等研究人员发布。该数据集针对原始数据集中的小部分标注错误进行了手动校正，并通过自动化方法如规范化等，提高了数据集与其他表格结构识别数据集如PubTables-1M的一致性，为表格结构识别研究提供了更为精准的资源。其发布对于促进文档分析与识别技术的发展具有重要意义。

当前挑战

ICDAR-2013.c数据集在解决表格结构识别问题的过程中，面临着如何准确校正原始数据集标注错误以及如何通过自动化手段提升数据集一致性的挑战。构建过程中，研究人员需克服原始数据集存在的权限限制问题，同时确保数据集的质量与可用性，以满足学术研究的需求。

常用场景

经典使用场景

在表格结构识别研究领域，ICDAR-2013.c数据集的典型应用场景在于为算法训练与评估提供了一个校正后的标准数据集。该数据集在原始ICDAR-2013的基础上进行了手动和自动修正，使得其标注更为准确，对于表格结构识别算法的性能评估具有关键作用。

衍生相关工作

ICDAR-2013.c数据集衍生的相关工作包括了对表格识别算法的改进、跨领域数据集的比较研究以及针对特定应用场景的定制化模型开发等。这些工作在提升表格识别技术的精确度与效率方面发挥了重要作用。

数据集最近研究