ReadingBank
收藏github2024-05-14 更新2024-05-31 收录
下载链接:
https://github.com/doc-analysis/ReadingBank
下载链接
链接失效反馈官方服务:
资源简介:
ReadingBank是一个用于阅读顺序检测的基准数据集,包含50万份不同类型的文档图像及其相应的阅读顺序信息。该数据集通过自动元数据提取方式获得高质量的阅读顺序标注,主要使用XML格式的WORD文档作为数据源。
ReadingBank is a benchmark dataset for reading order detection, which contains 500,000 document images of various types along with their corresponding reading order annotations. This dataset obtains high-quality reading order annotations via automatic metadata extraction, and mainly uses XML-formatted Microsoft Word documents as its data source.
创建时间:
2021-07-10
原始信息汇总
数据集概述
数据集名称
- ReadingBank
数据集用途
- 用于阅读顺序检测的基准数据集。
数据集内容
- 包含500,000份文档图像,涵盖多种文档类型,以及相应的阅读顺序信息。
数据集特点
- 使用自动化元数据提取方法获取高质量的阅读顺序标注。
- 数据来源于互联网上的Microsoft WORD文档,采用XML格式,转换为PDF格式以便提取2D边界框。
数据集下载
- 预处理数据集可在此处下载。
数据集统计
- 数据集分为训练、验证和测试三个子集,比例为8:1:1。
- 平均单词数为196.36,平均句子级BLEU分数为0.6974。
- 详细统计信息见下表:
| BLEU Distribution | BLEU Distribution | BLEU Distribution | BLEU Distribution | |||
|---|---|---|---|---|---|---|
| Split | #Word Avg. | Avg. BLEU | (0.00, 0.25] | (0.25, 0.50] | (0.50, 0.75] | (0.75, 1.00] |
| Train | 196.38 | 0.6974 | 9,666 (2.42%) | 58,785 (14.70 %) | 155,662 (38.92%) | 175,884 (43.97%) |
| Validation | 196.02 | 0.6974 | 1,203 (2.41%) | 7,351 (14.70%) | 19,387 (38.78%) | 22,053 (44.11%) |
| Test | 196.55 | 0.6972 | 1,232 (2.46%) | 7,329 (14.66%) | 19,555 (39.10%) | 21,893 (43.78%) |
| All | 196.36 | 0.6974 | 12,101 (2.42%) | 73,465 (14.69%) | 194,604 (38.92%) | 219,830 (43.97%) |
使用许可
- 数据集受Apache 2.0许可证保护,仅限研究使用,不得重新分发。
联系方式
- 如需帮助或报告问题,请提交GitHub issue。
搜集汇总
数据集介绍

构建方式
ReadingBank数据集通过弱监督的方式构建,利用了大量互联网上可获取的Microsoft WORD文档,特别是XML格式的文档。这些文档中嵌入了阅读顺序信息,通过自动化元数据提取技术,将WORD文档转换为PDF格式,并使用现成的PDF解析器提取每个单词的二维边界框。随后,设计了一种精密的着色方案,将XML元数据中的文本与PDF中的边界框对齐,从而生成高质量的阅读顺序标注。
特点
ReadingBank数据集具有显著的特点,包括其规模庞大,包含50万份真实世界的文档图像,涵盖多种文档类型。与传统的人工标注数据集不同,该数据集通过自动化方法生成,确保了数据的高质量和大规模。此外,数据集的构建方式使其能够广泛应用于阅读顺序检测任务,为视觉丰富的文档理解提供了坚实的基础。
使用方法
ReadingBank数据集主要用于阅读顺序检测的研究,用户可以通过提供的Google Drive链接下载预处理的数据集。数据集分为训练集、验证集和测试集,比例为8:1:1。用户可以使用这些数据进行模型训练和评估,特别是在文本和布局信息的预训练模型中。数据集的使用仅限于研究目的,且需遵守Apache 2.0许可证的相关规定。
背景与挑战
背景概述
ReadingBank数据集是由微软研究院提出的一项用于阅读顺序检测的基准数据集,创建于2021年,其核心研究问题在于如何通过弱监督的方式从WORD文档中自动提取高质量的阅读顺序信息。该数据集包含了50万张来自不同领域的文档图像及其对应的阅读顺序信息,旨在推动视觉丰富文档理解领域的长期研究。ReadingBank的构建方法通过自动化元数据提取,避免了传统人工标注的高成本与低效率,为阅读顺序检测任务提供了大规模、高质量的数据支持。该数据集的发布不仅填补了现有数据集的空白,还为深度学习方法在该领域的应用提供了新的基准。
当前挑战
ReadingBank数据集在构建过程中面临的主要挑战包括:首先,如何从大量WORD文档中自动提取高质量的阅读顺序信息,确保数据集的准确性与一致性;其次,文档图像的多样性带来了数据标注的复杂性,不同文档格式和布局的差异增加了数据处理的难度。此外,数据集的规模和质量要求在自动化处理过程中保持平衡,避免数据不均衡问题。在应用层面,阅读顺序检测任务本身具有较高的复杂性,尤其是在处理视觉丰富文档时,如何有效捕捉文本与布局信息以实现准确的阅读顺序预测,仍是一个亟待解决的难题。
常用场景
经典使用场景
ReadingBank数据集的经典使用场景主要集中在阅读顺序检测任务中,特别是在视觉丰富的文档理解领域。该数据集通过提供50万份包含多种文档类型的图像及其对应的阅读顺序信息,为研究人员提供了一个强大的基准。通过结合文本和布局信息,研究人员可以训练模型以自动识别文档中的阅读顺序,这对于文档解析和信息提取任务至关重要。
实际应用
在实际应用中,ReadingBank数据集可广泛应用于文档自动化处理、信息提取和文档理解等领域。例如,在法律、金融和医疗等行业中,大量的文档需要进行自动化处理以提取关键信息。通过使用ReadingBank数据集训练的模型,可以高效地识别文档的阅读顺序,从而提高文档解析的准确性和效率,减少人工干预的需求。
衍生相关工作
ReadingBank数据集的发布催生了一系列相关研究工作,特别是在文档理解、布局分析和文本识别等领域。例如,基于ReadingBank数据集的LayoutReader模型通过预训练文本和布局信息,显著提升了阅读顺序检测的性能。此外,该数据集还激发了其他研究人员在文档自动化处理和信息提取方面的创新,推动了整个领域的技术进步。
以上内容由遇见数据集搜集并总结生成



