five

maveriq/readingbank

收藏
Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maveriq/readingbank
下载链接
链接失效反馈
官方服务:
资源简介:
ReadingBank是一个用于阅读顺序检测的基准数据集,通过WORD文档的弱监督构建,包含50万张文档图像及其对应的阅读顺序信息。数据集支持的任务是文档的阅读顺序检测,语言为英语。数据集结构包括源文本、目标文本、BLEU分数等字段。数据分割为训练集40万条,开发集和测试集各5万条。
提供机构:
maveriq
原始信息汇总

数据集卡片 for ReadingBank

数据集描述

  • 数据集概述: ReadingBank 是一个用于阅读顺序检测的基准数据集,通过从 WORD 文档中进行弱监督构建,包含 500K 个文档图像,涵盖广泛的文档类型以及相应的阅读顺序信息。

支持的任务和排行榜

  • 任务: 文档的阅读顺序

语言

  • 语言: 英语

数据集结构

数据实例

[更多信息需要]

数据字段

  • src : 文本
  • tgt : 文本
  • bleu : 浮点数
  • tgt_index : 整数列表
  • original_filename : 字符串
  • filename : 字符串
  • page_idx : 整数
  • src_layout : src 的边界框(整数列表的列表)
  • tgt_layout : tgt 的边界框(整数列表的列表)

数据划分

  • train : 400,000
  • dev : 50,000
  • test : 50,000

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁?

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据时的考虑因素

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

[更多信息需要]

贡献

[更多信息需要]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作