florianbussmann/FUNSD-vu2020revising
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/florianbussmann/FUNSD-vu2020revising
下载链接
链接失效反馈官方服务:
资源简介:
这是由Vu, H. M., & Nguyen, D. T. N. (2020)提出的FUNSD数据集的修订版本。该数据集支持表单理解挑战,包括三个任务:单词分组、语义实体标注和实体链接。数据集包含149个训练样本和50个测试样本,数据字段包括id、words、bboxes、ner_tags和image_path。
提供机构:
florianbussmann
原始信息汇总
数据集概述
数据集描述
数据集摘要
- 名称: FUNSD-vu2020revising
- 版本: 修订版
- 来源: 由Vu, H. M., & Nguyen, D. T. N. (2020)提出,基于原始FUNSD数据集。
支持的任务和排行榜
- 任务: 表单理解挑战
- 具体任务:
- 单词分组
- 语义实体标注
- 实体链接
语言
- 语言: 英语(en-US)
数据集结构
数据实例
- 详细信息: 待补充
数据字段
- 字段:
-
id: 字符串类型,全局唯一标识符(GUID)。 -
words: 字符串列表。 -
bboxes: 整数列表的列表,每个列表包含四个整数。 -
ner_tags: 整数列表,分类标签。标签集包括: python {O: 0, B-HEADER: 1, I-HEADER: 2, B-QUESTION: 3, I-QUESTION: 4, B-ANSWER: 5, I-ANSWER: 6} -
image_path: 字符串类型。
-
数据分割
- 分割:
- 训练集: 149个实例
- 测试集: 50个实例
数据集创建
数据来源
- 初始数据收集和标准化: 待补充
- 源语言生产者: 待补充
注释
- 注释过程: 待补充
- 注释者: 待补充
个人和敏感信息
- 信息: 待补充
使用数据的考虑
数据集的社会影响
- 影响: 待补充
偏见的讨论
- 偏见: 待补充
其他已知限制
- 限制: 待补充
附加信息
数据集维护者
- 维护者: 待补充
许可信息
- 许可: 待补充
引用信息
-
引用:
@article{vu2020revising, title={Revising FUNSD dataset for key-value detection in document images}, author={Vu, Hieu M and Nguyen, Diep Thi-Ngoc}, journal={arXiv preprint arXiv:2010.05322}, year={2020} }



