EC-FUNSD 和 ROOR

github2024-10-10 更新2024-10-12 收录

下载链接：

https://github.com/chongzhangFDU/ROOR-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

EC-FUNSD是一个语义实体识别（SER）和实体链接（EL）的基准，专注于预训练文本和布局模型的实体中心鲁棒性评估。ROOR是一个阅读顺序预测（ROP）基准，将布局阅读顺序注释为排序关系。

EC-FUNSD is a benchmark for Semantic Entity Recognition (SER) and Entity Linking (EL), focusing on entity-centric robustness evaluation of pre-trained text and layout models. ROOR is a Reading Order Prediction (ROP) benchmark that annotates layout reading order as ranking relations.

创建时间：

2024-09-27

原始信息汇总

数据集概述

数据集名称

EC-FUNSD
ROOR

数据集描述

EC-FUNSD:
- 专注于语义实体识别（SER）和实体链接（EL）的基准数据集。
- 主要用于评估预训练文本和布局模型的实体中心鲁棒性。
ROOR:
- 阅读顺序预测（ROP）基准数据集。
- 将布局阅读顺序标注为顺序关系。

数据集结构

data.*.txt: 包含数据集的训练/验证/测试分割，每行格式为 0000971160.json，指定一个文档样本。
labels.txt: 包含EC-FUNSD的SER任务的实体类型。
images: 包含样本的文档图像。
jsons: 包含样本的标注信息。EC-FUNSD和ROOR共享相同的布局标注，每个文档样本的布局标注、SER和EL标注以及ROOR的ROP标注集成在一个JSON文件中。

数据集文件结构示例

data ├── images │ ├── 0000971160.png │ ├── 0000989556.png │ ├── ... │ └── 93455715.png ├── jsons │ ├── 0000971160.json │ ├── 0000989556.json │ ├── ... │ └── 93455715.json ├── data.train.txt ├── data.val.txt └── labels.txt

数据集标注示例

"uid": 标识数据样本。
"img": 引用对应的文档图像及其高度和宽度信息。
"document": 引用对应的布局标注，每个元素表示一个段落。
- "id": 标识段落。
- "box": 引用段落的位置框。
- "text": 引用段落包含的文本。
- "words": 引用段落内的单词。
  - "id": 标识单词，全局范围内在样本中使用，并在"label_entities"中使用。
  - "box": 引用单词的位置框。
  - "text": 引用单词的文本。
"label_entities": 引用对应的SER标注，每个元素表示一个实体。
- "entity_id": 标识实体。
- "label": 引用实体类型。
- "word_idx": 引用组成实体的单词序列，由单词索引列表表示，索引保证连续。
"label_linkings": 引用对应的EL标注，每个元素表示一个链接对，指示头部和尾部实体的entity_id。
"ro_linkings": 引用对应的RO关系标注，每个元素表示一个链接对，指示头部和尾部实体的entity_id。

数据集引用

@article{zhang2024modeling, title={Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding}, author={Zhang, Chong and Tu, Yi and Zhao, Yixi and Yuan, Chenshu and Chen, Huan and Zhang, Yue and Chai, Mingxu and Guo, Ya and Zhu, Huijia and Zhang, Qi and others}, journal={arXiv preprint arXiv:2409.19672}, year={2024} }

@article{zhang2024rethinking, title={Rethinking the Evaluation of Pre-trained Text-and-Layout Models from an Entity-Centric Perspective}, author={Zhang, Chong and Zhao, Yixi and Yuan, Chenshu and Tu, Yi and Guo, Ya and Zhang, Qi}, journal={arXiv preprint arXiv:2402.02379}, year={2024} }

数据集许可证

所有数据集均在CC BY 4.0国际许可证下发布。
数据集利用了FUNSD数据集及其相应的许可协议。

搜集汇总

数据集介绍

构建方式

EC-FUNSD和ROOR数据集的构建基于视觉丰富的文档理解任务，通过整合FUNSD数据集的布局注释，分别针对语义实体识别（SER）和实体链接（EL）以及阅读顺序预测（ROP）进行了细粒度的标注。具体而言，EC-FUNSD通过解耦段落级注释中的错误耦合，重新定义了实体的识别与链接；而ROOR则通过定义布局元素间的直接阅读顺序关系，构建了有向无环图形式的阅读顺序注释。每个文档样本的注释信息被整合到一个JSON文件中，包含了布局、SER、EL和ROP的多任务注释，确保了数据集的多功能性和一致性。

特点

EC-FUNSD和ROOR数据集的显著特点在于其多任务注释的整合性和细粒度性。EC-FUNSD专注于实体中心的鲁棒性评估，通过精细的实体识别与链接注释，提供了对预训练文本与布局模型性能的全面评估。ROOR则通过有向无环图的形式，精确捕捉了文档布局中的阅读顺序关系，为阅读顺序预测任务提供了高质量的基准。此外，两个数据集共享相同的布局注释，确保了数据的一致性和可比性。

使用方法

使用EC-FUNSD和ROOR数据集时，用户可以通过提供的JSON文件访问每个文档样本的详细注释信息，包括布局、SER、EL和ROP的注释。数据集的结构清晰，包含图像文件夹、JSON注释文件夹以及训练、验证和测试集的划分文件。用户可以根据需要加载相应的数据子集，进行模型训练和评估。此外，数据集的注释信息通过不同的键进行区分，便于用户提取和处理特定任务的数据，为视觉丰富的文档理解研究提供了丰富的资源和便利。

背景与挑战

背景概述

EC-FUNSD和ROOR数据集是由张冲等人于2024年创建的，旨在解决视觉丰富文档理解（Visually-rich Document Understanding, VrDU）中的关键问题。EC-FUNSD专注于语义实体识别（SER）和实体链接（EL），特别关注预训练文本和布局模型在实体中心鲁棒性评估中的应用。ROOR则是一个阅读顺序预测（ROP）基准，通过将布局阅读顺序概念化为阅读过程中的直接继关系，并将其注释为布局元素之间的有向无环关系。这两个数据集的开发对提升文档理解模型的性能和鲁棒性具有重要意义，特别是在处理复杂文档结构和多模态信息融合方面。

当前挑战

EC-FUNSD和ROOR数据集在构建过程中面临多项挑战。首先，如何准确识别和链接文档中的语义实体，特别是在复杂布局和多语言环境中，是一个技术难题。其次，阅读顺序的预测需要精确捕捉文档元素之间的逻辑关系，这对模型的推理能力提出了高要求。此外，数据集的标注工作量大且复杂，确保标注的一致性和准确性是另一大挑战。这些挑战不仅影响了数据集的质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

在视觉丰富的文档理解领域，EC-FUNSD 和 ROOR 数据集被广泛用于语义实体识别（SER）和实体链接（EL）任务。EC-FUNSD 专注于评估预训练文本和布局模型的实体中心鲁棒性，而 ROOR 则通过将布局阅读顺序概念化为阅读过程中的即时连续关系，为阅读顺序预测（ROP）提供了一个基准。这两个数据集共同为研究人员提供了一个全面的工具，以探索和优化在复杂文档结构中的信息提取和顺序解析。

实际应用

在实际应用中，EC-FUNSD 和 ROOR 数据集被广泛应用于自动化文档处理和信息提取系统。例如，在金融、法律和医疗领域，这些数据集帮助开发了能够自动识别和链接文档中关键实体的系统，从而提高了文档处理的效率和准确性。此外，ROOR 的阅读顺序预测功能在电子书阅读器和数字图书馆中也有重要应用，帮助优化用户的阅读体验。

衍生相关工作

基于 EC-FUNSD 和 ROOR 数据集，许多相关工作得以展开。例如，有研究利用这些数据集开发了新的实体识别和链接算法，显著提升了模型在复杂文档中的表现。同时，ROOR 的引入激发了关于阅读顺序预测的新研究，推动了相关算法的创新和发展。此外，这些数据集还被用于训练和评估多模态学习模型，促进了跨领域的技术融合和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集