EC-FUNSD 和 ROOR
收藏数据集概述
数据集名称
- EC-FUNSD
- ROOR
数据集描述
-
EC-FUNSD:
- 专注于语义实体识别(SER)和实体链接(EL)的基准数据集。
- 主要用于评估预训练文本和布局模型的实体中心鲁棒性。
-
ROOR:
- 阅读顺序预测(ROP)基准数据集。
- 将布局阅读顺序标注为顺序关系。
数据集结构
data.*.txt: 包含数据集的训练/验证/测试分割,每行格式为0000971160.json,指定一个文档样本。labels.txt: 包含EC-FUNSD的SER任务的实体类型。images: 包含样本的文档图像。jsons: 包含样本的标注信息。EC-FUNSD和ROOR共享相同的布局标注,每个文档样本的布局标注、SER和EL标注以及ROOR的ROP标注集成在一个JSON文件中。
数据集文件结构示例
data ├── images │ ├── 0000971160.png │ ├── 0000989556.png │ ├── ... │ └── 93455715.png ├── jsons │ ├── 0000971160.json │ ├── 0000989556.json │ ├── ... │ └── 93455715.json ├── data.train.txt ├── data.val.txt └── labels.txt
数据集标注示例
"uid": 标识数据样本。"img": 引用对应的文档图像及其高度和宽度信息。"document": 引用对应的布局标注,每个元素表示一个段落。"id": 标识段落。"box": 引用段落的位置框。"text": 引用段落包含的文本。"words": 引用段落内的单词。"id": 标识单词,全局范围内在样本中使用,并在"label_entities"中使用。"box": 引用单词的位置框。"text": 引用单词的文本。
"label_entities": 引用对应的SER标注,每个元素表示一个实体。"entity_id": 标识实体。"label": 引用实体类型。"word_idx": 引用组成实体的单词序列,由单词索引列表表示,索引保证连续。
"label_linkings": 引用对应的EL标注,每个元素表示一个链接对,指示头部和尾部实体的entity_id。"ro_linkings": 引用对应的RO关系标注,每个元素表示一个链接对,指示头部和尾部实体的entity_id。
数据集引用
@article{zhang2024modeling, title={Modeling Layout Reading Order as Ordering Relations for Visually-rich Document Understanding}, author={Zhang, Chong and Tu, Yi and Zhao, Yixi and Yuan, Chenshu and Chen, Huan and Zhang, Yue and Chai, Mingxu and Guo, Ya and Zhu, Huijia and Zhang, Qi and others}, journal={arXiv preprint arXiv:2409.19672}, year={2024} }
@article{zhang2024rethinking, title={Rethinking the Evaluation of Pre-trained Text-and-Layout Models from an Entity-Centric Perspective}, author={Zhang, Chong and Zhao, Yixi and Yuan, Chenshu and Tu, Yi and Guo, Ya and Zhang, Qi}, journal={arXiv preprint arXiv:2402.02379}, year={2024} }
数据集许可证
- 所有数据集均在CC BY 4.0国际许可证下发布。
- 数据集利用了FUNSD数据集及其相应的许可协议。




