five

bsmock/ICDAR-2013-Table-Competition-Corrected

收藏
Hugging Face2023-09-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bsmock/ICDAR-2013-Table-Competition-Corrected
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cdla-permissive-2.0 tags: - table structure recognition - table extraction --- # ICDAR2013 Table Competition Corrected This dataset is originally from the ICDAR 2013 Table Competition, but with manual corrections made to the annotations in 2023. ## About the original dataset The original dataset was released as part of the ICDAR 2013 Table Competition. It can be downloaded [here](https://roundtrippdf.com/en/downloads/) but as of August 2023 accessing the files returns a 403 Forbidden error. ### Original license There is no known license for the original dataset, but the data is commonly referred to as "public", and so we interpret this to mean there are no license restrictions on the original data. According to [this website](https://roundtrippdf.com/en/data-extraction/pdf-table-recognition-dataset/) from Tamir Hassan (as of August 2023): "These documents have been collected systematically from the European Union and US Government websites, and we therefore expect them to have public domain status." Associated [code](https://github.com/tamirhassan/dataset-tools) for the data for the 2013 competition carries an Apache-2.0 license. ## About the corrected dataset For more details about this version (2023) of the dataset and the manual corrections made to the original dataset, please see ["Aligning benchmark datasets for table structure recognition"](https://arxiv.org/abs/2303.00716).

--- license: cdla-permissive-2.0 tags: - 表格结构识别(table structure recognition) - 表格提取(table extraction) --- # ICDAR2013表格竞赛修正数据集 本数据集源自ICDAR 2013表格竞赛,并于2023年对其标注进行了人工修正。 ## 原始数据集概况 原始数据集作为ICDAR 2013表格竞赛的一部分发布。 其下载链接为[此处](https://roundtrippdf.com/en/downloads/),但截至2023年8月,访问该文件将返回403 Forbidden(禁止访问)错误。 ### 原始数据集许可证 目前尚未发现原始数据集的官方许可证,但该数据通常被称为“公开数据”,因此我们认定其不存在许可证限制。 根据Tamir Hassan运营的[该网站](https://roundtrippdf.com/en/data-extraction/pdf-table-recognition-dataset/)(截至2023年8月)的表述:“这些文档均系统性采集自欧盟与美国政府网站,因此我们推测其属于公有领域范畴。” 2013年竞赛配套的[数据代码](https://github.com/tamirhassan/dataset-tools)采用Apache-2.0许可证。 ## 修正后数据集说明 如需了解本版(2023年)数据集的更多细节,以及对原始数据集所做的人工修正内容,请参阅论文《Aligning benchmark datasets for table structure recognition》,链接为https://arxiv.org/abs/2303.00716。
提供机构:
bsmock
原始信息汇总

ICDAR2013 Table Competition Corrected

数据集概述

  • 来源: 原数据集来自ICDAR 2013 Table Competition,2023年进行了手动修正。
  • 用途: 用于表结构识别和表提取。
  • 许可证: CDLA Permissive 2.0。

原始数据集信息

  • 发布: 作为ICDAR 2013 Table Competition的一部分发布。
  • 下载: 原数据集可尝试从此链接下载,但截至2023年8月,访问该链接会遇到403 Forbidden错误。
  • 许可证: 原始数据集没有明确的许可证,但通常被认为是公开的,意味着没有许可证限制。

修正后的数据集信息

搜集汇总
数据集介绍
main_image_url
构建方式
ICDAR2013 Table Competition Corrected数据集是在原始ICDAR 2013表格竞赛数据集的基础上,通过人工方式对标注进行了校正。该数据集的构建旨在提升表格结构识别的准确性,其基础数据来源于欧洲联盟和美国政府网站公开的文档,经过系统性地收集并整理而成。
特点
本数据集的特点在于其校正后的标注质量更高,能够为表格结构识别研究提供更为精确的训练和测试基准。数据集包含多种格式的文档,覆盖了不同领域的表格内容,有助于研究者进行广泛的算法评估和模型训练。此外,数据集遵循CDLA-Permissive 2.0许可,确保了使用的灵活性和开放性。
使用方法
使用该数据集时,研究者可以通过合法渠道获取数据集文件,并依据Apache-2.0许可的代码进行相应的数据处理和模型开发。数据集的使用不受到版权限制,但应遵循数据集的许可协议,合理使用数据集以促进学术研究和技术的进步。
背景与挑战
背景概述
ICDAR2013 Table Competition Corrected数据集源于2013年国际文档分析与识别会议(ICDAR)的表格识别竞赛。该数据集的创建旨在推进表格结构识别领域的研究,原始数据集由Tamir Hassan等研究人员整理,系统性采集自欧洲联盟和美国政府网站,预期具有公共领域地位。该数据集的发布对表格提取与结构识别领域产生了深远影响,为相关研究提供了宝贵的实验资源。
当前挑战
尽管原始数据集在发布时被认为是公开的,但其并未明确声明版权许可,这给数据的共享与使用带来了一定程度的不确定性。此外,在构建过程中,数据集的标注质量直接关系到模型训练的效果,本次更新的数据集对原始标注进行了手动校正,以解决标注不一致和错误的问题,这对于提升数据集的可靠性至关重要。当前的挑战包括如何确保数据集标注的准确性和一致性,以及如何在遵循合适的版权法规定下,促进数据集的广泛应用和共享。
常用场景
经典使用场景
在文档信息提取领域,ICDAR2013表格识别竞赛数据集经过校正后,成为研究表格结构识别的重要资源。该数据集的经典使用场景主要集中于训练和评估表格提取模型,以实现对文档中表格结构的精准定位和内容识别。
衍生相关工作
基于该数据集,研究者们衍生出了一系列相关工作,如表格结构识别算法的改进、跨领域表格识别方法的研究以及表格数据的语义解析等,推动了文档分析领域的发展和创新。
数据集最近研究
最新研究方向
在表格结构识别领域,表格提取技术一直是研究的核心。ICDAR2013 Table Competition Corrected数据集的问世,为该领域的研究提供了更为精确的标注基准。近期的研究方向主要聚焦于通过手动校正原始数据集中的标注错误,以提高数据集的质量和可靠性。此数据集的校正版在2023年发布,相关研究['Aligning benchmark datasets for table structure recognition']在arXiv上公布,旨在推动表格识别技术的标准化进程,对提升表格自动识别和结构化处理的准确性具有重大意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作