five

florianbussmann/FUNSD-vu2020revising

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/florianbussmann/FUNSD-vu2020revising
下载链接
链接失效反馈
官方服务:
资源简介:
这是由Vu, H. M., & Nguyen, D. T. N. (2020)提出的FUNSD数据集的修订版本。该数据集支持表单理解挑战,包括三个任务:单词分组、语义实体标注和实体链接。数据集包含149个训练样本和50个测试样本,数据字段包括id、words、bboxes、ner_tags和image_path。
提供机构:
florianbussmann
原始信息汇总

数据集概述

数据集描述

数据集摘要

  • 名称: FUNSD-vu2020revising
  • 版本: 修订版
  • 来源: 由Vu, H. M., & Nguyen, D. T. N. (2020)提出,基于原始FUNSD数据集。

支持的任务和排行榜

  • 任务: 表单理解挑战
  • 具体任务:
    • 单词分组
    • 语义实体标注
    • 实体链接

语言

  • 语言: 英语(en-US)

数据集结构

数据实例

  • 详细信息: 待补充

数据字段

  • 字段:
    • id: 字符串类型,全局唯一标识符(GUID)。

    • words: 字符串列表。

    • bboxes: 整数列表的列表,每个列表包含四个整数。

    • ner_tags: 整数列表,分类标签。标签集包括: python {O: 0, B-HEADER: 1, I-HEADER: 2, B-QUESTION: 3, I-QUESTION: 4, B-ANSWER: 5, I-ANSWER: 6}

    • image_path: 字符串类型。

数据分割

  • 分割:
    • 训练集: 149个实例
    • 测试集: 50个实例

数据集创建

数据来源

  • 初始数据收集和标准化: 待补充
  • 源语言生产者: 待补充

注释

  • 注释过程: 待补充
  • 注释者: 待补充

个人和敏感信息

  • 信息: 待补充

使用数据的考虑

数据集的社会影响

  • 影响: 待补充

偏见的讨论

  • 偏见: 待补充

其他已知限制

  • 限制: 待补充

附加信息

数据集维护者

  • 维护者: 待补充

许可信息

  • 许可: 待补充

引用信息

  • 引用:

    @article{vu2020revising, title={Revising FUNSD dataset for key-value detection in document images}, author={Vu, Hieu M and Nguyen, Diep Thi-Ngoc}, journal={arXiv preprint arXiv:2010.05322}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作