maveriq/readingbank
收藏Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maveriq/readingbank
下载链接
链接失效反馈官方服务:
资源简介:
ReadingBank是一个用于阅读顺序检测的基准数据集,通过WORD文档的弱监督构建,包含50万张文档图像及其对应的阅读顺序信息。数据集支持的任务是文档的阅读顺序检测,语言为英语。数据集结构包括源文本、目标文本、BLEU分数等字段。数据分割为训练集40万条,开发集和测试集各5万条。
提供机构:
maveriq
原始信息汇总
数据集卡片 for ReadingBank
数据集描述
- 数据集概述: ReadingBank 是一个用于阅读顺序检测的基准数据集,通过从 WORD 文档中进行弱监督构建,包含 500K 个文档图像,涵盖广泛的文档类型以及相应的阅读顺序信息。
支持的任务和排行榜
- 任务: 文档的阅读顺序
语言
- 语言: 英语
数据集结构
数据实例
[更多信息需要]
数据字段
src: 文本tgt: 文本bleu: 浮点数tgt_index: 整数列表original_filename: 字符串filename: 字符串page_idx: 整数src_layout: src 的边界框(整数列表的列表)tgt_layout: tgt 的边界框(整数列表的列表)
数据划分
train: 400,000dev: 50,000test: 50,000
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据时的考虑因素
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
[更多信息需要]



