bsmock/FinTabNet.c

Name: bsmock/FinTabNet.c
Creator: bsmock
Published: 2023-09-07 04:50:07
License: 暂无描述

Hugging Face2023-09-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bsmock/FinTabNet.c

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cdla-permissive-2.0 tags: - table structure recognition - table extraction --- # FinTabNet.c The FinTabNet.c dataset was released in 2023. You can think of FinTabNet.c as a fork (a modified version, in this case by different authors) of the original FinTabNet dataset. FinTabNet.c contains: - automated corrections of FinTabNet (such as canonicalization) to correct oversegmentation and to make the dataset more consistent with other TSR datasets, like PubTables-1M - fewer samples than FinTabNet, where samples were removed whose annotations could not be either automatically processed, corrected, or verified For more details about this version (2023) of the dataset and the adjustments made to the original dataset, please see ["Aligning benchmark datasets for table structure recognition"](https://arxiv.org/abs/2303.00716). For the code used to create this dataset, see [https://github.com/microsoft/table-transformer](https://github.com/microsoft/table-transformer). ## Citing If you use this dataset in your published work, please cite: ``` @article{smock2023aligning, title={Aligning benchmark datasets for table structure recognition}, author={Smock, Brandon and Pesala, Rohith and Abraham, Robin}, booktitle={International Conference on Document Analysis and Recognition}, pages={371--386}, year={2023}, organization={Springer} } ``` ## About the original FinTabNet dataset Please see: [https://developer.ibm.com/data/fintabnet/](https://developer.ibm.com/data/fintabnet/) (link last checked September 2023). ### Original license According to the dataset website, the license of the original FinTabNet dataset is [CDLA-Permissive](https://cdla.dev/permissive-1-0/).

--- license: CDLA-Permissive-2.0 tags: - 表格结构识别（table structure recognition） - 表格提取（table extraction） --- # FinTabNet.c 数据集 FinTabNet.c 数据集于2023年发布。您可将FinTabNet.c视作原始FinTabNet数据集的衍生分支（即由不同作者开发的修改版本）。 FinTabNet.c 包含以下内容： - 对原始FinTabNet数据集的自动化修正（例如规范化处理），以修正过分割问题，并使本数据集与其他表格结构识别（Table Structure Recognition，简称TSR）数据集（如PubTables-1M）保持更高一致性； - 样本数量少于原始FinTabNet数据集，移除了所有无法自动处理、修正或验证其标注的样本。若需了解本2023版数据集的更多细节及针对原始数据集的调整方案，请参阅《对齐表格结构识别基准数据集》（*Aligning benchmark datasets for table structure recognition*，链接：https://arxiv.org/abs/2303.00716）。如需获取本数据集的构建代码，请访问：https://github.com/microsoft/table-transformer。 ## 引用说明若您在已发表的研究工作中使用本数据集，请引用以下文献： @article{smock2023aligning, title={Aligning benchmark datasets for table structure recognition}, author={Smock, Brandon and Pesala, Rohith and Abraham, Robin}, booktitle={国际文档分析与识别大会（International Conference on Document Analysis and Recognition）}, pages={371--386}, year={2023}, organization={施普林格（Springer）} } ## 原始FinTabNet数据集说明请访问：https://developer.ibm.com/data/fintabnet/（本链接最后校验时间为2023年9月）。 ### 原始数据集许可证据该数据集官网信息，原始FinTabNet数据集的许可证为[CDLA-Permissive](https://cdla.dev/permissive-1-0/)。

提供机构：

bsmock

原始信息汇总

FinTabNet.c 数据集概述

基本信息

发布年份: 2023年
类型: 表格结构识别（TSR）数据集
许可证: CDLA-Permissive-2.0

数据集描述

FinTabNet.c 是原始 FinTabNet 数据集的一个修改版本，由不同的作者进行改进。该数据集包含以下内容：

自动化修正: 对 FinTabNet 数据集进行了自动化修正，如规范化处理，以纠正过度分割问题，并使其与其他 TSR 数据集（如 PubTables-1M）更加一致。
样本数量减少: 移除了无法自动处理、修正或验证的样本，因此样本数量少于原始 FinTabNet 数据集。

引用信息

如果您在已发表的工作中使用此数据集，请引用以下文献：

@article{smock2023aligning, title={Aligning benchmark datasets for table structure recognition}, author={Smock, Brandon and Pesala, Rohith and Abraham, Robin}, booktitle={International Conference on Document Analysis and Recognition}, pages={371--386}, year={2023}, organization={Springer} }

搜集汇总

数据集介绍

构建方式

FinTabNet.c数据集是在原始FinTabNet数据集基础上，由不同作者进行改进和修正的分支版本。该数据集的构建过程涉及对原始数据集中的表格结构进行自动化校正，以解决过度分割问题，并增强数据集与其他表格结构识别数据集（如PubTables-1M）的一致性。此外，通过移除无法自动处理、校正或验证注释的样本，数据集的样本数量有所减少。

特点

FinTabNet.c数据集的特点在于其经过优化的数据质量，提供了更加规范和一致的表格结构识别样本。数据集在保留原始FinTabNet核心特性的同时，通过精确的自动化校正，提升了数据集的可用性和可靠性。此外，该数据集样本量的精简使得研究者在进行表格结构识别任务时能够更加聚焦于关键样本。

使用方法

使用FinTabNet.c数据集时，研究者可以参考所提供的代码库（https://github.com/microsoft/table-transformer）以了解数据集创建的详细过程。在学术出版物中引用该数据集时，应遵循数据集详情页面所提供的引用格式。此外，数据集的许可协议为CDLA-Permissive，允许较为宽松的使用和分发，但需遵守相应的许可要求。

背景与挑战

背景概述

FinTabNet.c数据集是在2023年发布的一个表格结构识别领域的数据集，它是原始FinTabNet数据集的一个分支版本，由不同的作者进行修改。该数据集的创建旨在通过自动化修正，如规范化和减少过分割现象，使得数据集与其他表格结构识别数据集如PubTables-1M更加一致。主要研究人员包括Brandon Smock、Rohith Pesala和Robin Abraham，他们的工作对推动表格结构识别领域的研究具有重要意义。

当前挑战

该数据集面临的挑战主要包括：一是领域问题上的挑战，即如何精确识别和提取表格结构信息；二是构建过程中的挑战，如自动化修正过程中如何确保修正的准确性和一致性，以及如何处理那些无法自动处理、修正或验证的样本。这些挑战对于提升表格结构识别技术的性能和实用性至关重要。

常用场景

经典使用场景

在表格结构识别领域，FinTabNet.c数据集的经典使用场景主要在于提供了一种经过自动化修正的、具有较高一致性的表格结构识别训练资源。该数据集通过修正原始FinTabNet的过分割问题，以及确保样本标注的质量，使得研究者在表格结构识别任务上能够获得更为精确和可靠的实验结果。

解决学术问题

FinTabNet.c数据集解决了表格结构识别研究中标注不一致性和数据质量参差不齐的问题，从而降低了模型训练的不确定性，提高了模型的泛化能力。其意义在于为学术研究提供了一个更为标准和可靠的数据基础，对推动表格理解技术的发展具有显著影响。

衍生相关工作

基于FinTabNet.c数据集，研究者们进一步开展了一系列相关工作，如表格数据的语义解析、表格结构的自动生成等，这些研究不仅拓宽了表格结构识别技术的应用范围，也促进了相关领域的交叉融合与技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集