maveriq/DocBank

Name: maveriq/DocBank
Creator: maveriq
Published: 2023-01-05 20:41:27
License: 暂无描述

Hugging Face2023-01-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/maveriq/DocBank

下载链接

链接失效反馈

官方服务：

资源简介：

DocBank是一个新的大规模数据集，采用弱监督方法构建，旨在为下游任务提供文本和布局信息的整合。当前DocBank数据集共包含50万页文档，其中40万页用于训练，5万页用于验证，另外5万页用于测试。数据集的注释是由机器生成的，语言为英语，且数据集是单语言的。数据集的字段包括图像、令牌、边界框、颜色、字体和标签等信息。

DocBank is a novel large-scale dataset constructed via a weakly-supervised approach, which aims to provide integrated textual and layout information for downstream tasks. Currently, the DocBank dataset includes a total of 500,000 document pages, among which 400,000 pages are for training, 50,000 pages for validation, and the remaining 50,000 pages for testing. The annotations of the dataset are machine-generated, in English, and the dataset is monolingual. The dataset's fields include information such as images, tokens, bounding boxes, colors, fonts and labels.

提供机构：

maveriq

原始信息汇总

数据集概述

数据集名称

名称: DocBank

数据集摘要

摘要: DocBank是一个采用弱监督方法构建的大型数据集，旨在使模型能够整合文本和布局信息以应用于下游任务。该数据集包含500,000个文档页面，其中400,000用于训练，50,000用于验证，50,000用于测试。

支持的任务

任务: 文档AI（文本和布局）

语言

语言: 英语

数据集结构

数据实例: 信息待补充
数据字段:
- 图像（image）
- 令牌（token）
- 边界框（bounding_box）
- 颜色（color）
- 字体（font）
- 标签（label）
数据分割:
- 训练集: 400,000个实例
- 验证集: 50,000个实例
- 测试集: 50,000个实例

数据集创建

许可证: Apache 2.0
贡献者: @doc-analysis

引用信息

title={DocBank: A Benchmark Dataset for Document Layout Analysis}, author={Minghao Li and Yiheng Xu and Lei Cui and Shaohan Huang and Furu Wei and Zhoujun Li and Ming Zhou}, year={2020}, eprint={2006.01038}, archivePrefix={arXiv}, primaryClass={cs.CL}

搜集汇总

数据集介绍

构建方式

DocBank数据集的构建采用了弱监督学习方法，汇集了文本与布局信息，旨在为下游任务提供综合数据支持。该数据集包含500K文档页面，其中400K用于训练，50K用于验证，50K用于测试，通过这种方式实现了大规模文档数据的整合与预处理。

使用方法

使用DocBank数据集时，用户可以访问其提供的图像、文本、边界框、颜色和字体等字段，这些字段为研究和开发提供了丰富的信息。数据集分为训练集、验证集和测试集，便于进行模型训练和性能评估。用户需遵循Apache 2.0许可证的规定，合理使用和分享数据集成果。

背景与挑战

背景概述

DocBank数据集，由Minghao Li等研究人员于2020年构建，是文档布局分析领域的一项重要成果。该数据集采用弱监督学习方法，集成了文本和布局信息，为下游任务提供了有力支持。DocBank数据集总计包含500K文档页面，其中400K用于训练，50K用于验证，50K用于测试，主要应用于文档AI领域，涵盖了文本和布局两大任务。该数据集的创建，不仅丰富了文档处理领域的研究资源，也为相关领域的学者提供了新的研究方向。

当前挑战

在构建过程中，DocBank数据集面临了诸多挑战。首先，数据集的构建需要处理大量的原始数据，进行初步的数据收集和归一化处理，这对于数据处理的效率和准确性提出了较高的要求。其次，数据集的标注过程和标注者的选择也是一项重要挑战，因为这直接关系到数据集的质量和应用效果。此外，数据集中可能存在的个人敏感信息处理、偏见问题以及其他潜在局限性，都是在使用该数据集时需要考虑的重要因素。

常用场景

经典使用场景

在文档智能处理领域，DocBank数据集以其独特的弱监督构建方法，成为整合文本与布局信息进行下游任务的重要资源。该数据集广泛用于训练模型，以便更好地理解和解析文档的视觉布局与文本内容，例如，用于表格识别、文档分类和关键信息提取等任务。

解决学术问题

DocBank数据集解决了学术研究中如何高效融合文本与布局信息的问题，它通过大规模文档页面的收集和标注，为模型训练提供了丰富的学习样本。这对于提升文档解析算法的准确性和实用性具有重要意义，进一步推动了文档AI领域的发展。

实际应用

在实际应用中，DocBank数据集的应用场景遍及金融、医疗和法律等行业，它助力于自动化处理大量文档，提高工作效率，减少人工错误，对于构建智能化的文档管理系统具有显著影响。

数据集最近研究