adopd2024

Hugging Face2024-08-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/adopd/adopd2024

下载链接

链接失效反馈

官方服务：

资源简介：

ADOPD是一个用于文档页面分解的大规模数据集，其特点是通过一种新颖的数据驱动文档分类发现方法进行数据收集。该方法结合了大规模预训练模型和人在回路过程，以确保数据的多样性和平衡。ADOPD包括密集标注的文档图像标签，涵盖四个任务：Doc2Mask、Doc2Box、Doc2Tag和Doc2Seq。每个图像的标注包括人工标记的实体掩码、文本边界框以及自动生成的标签和说明。详细的实验分析验证了数据驱动的文档分类方法，并使用不同的模型评估了四个任务。ADOPD旨在支持未来在文档图像理解方面的研究。

创建时间：

2024-08-02

原始信息汇总

数据集概述

ADOPD 是一个用于文档页面分解的大型数据集，其特点是通过一种新颖的数据驱动文档分类发现方法进行数据收集。该方法结合了大规模预训练模型和人工参与过程，以确保数据的多样性和平衡性。ADOPD 包含了密集标注的文档图像标签，涵盖四个任务：Doc2Mask、Doc2Box、Doc2Tag 和 Doc2Seq。每个图像的标注包括人工标记的实体掩码、文本边界框以及自动生成的标签和描述。详细的实验分析验证了数据驱动文档分类方法，并使用不同模型评估了四个任务。ADOPD 旨在支持未来在文档图像理解方面的研究。

数据集信息

ADOPD 数据集总共包含 120,000 张图像，语言分布如下：

英语：60,000 张
中文：20,000 张
日语：20,000 张
其他：20,000 张

标注

待补充，即将到来。

引用

@inproceedings{ gu2024adopd, title={{ADOPD}: A Large-Scale Document Page Decomposition Dataset}, author={Jiuxiang Gu and Xiangxi Shi and Jason Kuen and Lu Qi and Ruiyi Zhang and Ani Nenkova and Tong Sun}, booktitle={The Twelfth International Conference on Learning Representations}, year={2024}, url={https://openreview.net/forum?id=x1ptaXpOYa} }

许可证

cc-by-nc-nd-4.0

搜集汇总

数据集介绍

构建方式

ADOPD数据集的构建采用了数据驱动的文档分类发现方法，结合大规模预训练模型与人工参与的循环过程，确保了数据的多样性和平衡性。通过这种方法，数据集涵盖了120,000张文档图像，并对其进行了密集的标注，包括实体掩码、文本边界框、自动生成的标签和描述。这一构建过程不仅提高了数据的质量，还为文档图像理解领域的研究提供了坚实的基础。

使用方法

ADOPD数据集的使用方法主要围绕其四个核心任务展开。研究人员可以利用Doc2Mask任务进行文档图像的实体分割，通过Doc2Box任务进行文本区域的精确定位，借助Doc2Tag任务生成文档的语义标签，并通过Doc2Seq任务生成文档的描述性文本。数据集的多任务特性使其适用于多种文档图像理解模型的训练与评估，为相关领域的研究提供了丰富的实验数据支持。

背景与挑战

背景概述

ADOPD2024数据集是一个专注于文档页面分解的大规模数据集，由Jiuxiang Gu等研究人员于2024年提出。该数据集通过一种新颖的数据驱动文档分类发现方法进行数据收集，结合了大规模预训练模型和人工参与的循环过程，以确保数据的多样性和平衡性。ADOPD数据集包含120,000张文档图像，涵盖英语、中文、日语等多种语言，并提供了密集的标注标签，支持Doc2Mask、Doc2Box、Doc2Tag和Doc2Seq四个任务。该数据集的发布旨在推动文档图像理解领域的研究，为未来的算法开发和模型评估提供了重要的基准。

当前挑战

ADOPD2024数据集在解决文档页面分解问题时面临多重挑战。首先，文档图像的多样性和复杂性使得标注过程极为繁琐，尤其是在多语言环境下，如何确保标注的一致性和准确性成为一大难题。其次，数据驱动的文档分类发现方法虽然提高了数据的多样性，但也带来了数据平衡性的挑战，如何在不同的文档类型和语言之间实现均衡分布仍需进一步优化。此外，自动生成的标签和描述虽然提高了标注效率，但其准确性和语义一致性仍需通过人工验证和修正。这些挑战不仅影响了数据集的构建过程，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

ADOPD数据集在文档图像理解领域具有广泛的应用，尤其是在文档页面分解任务中。该数据集通过提供密集的标注信息，支持Doc2Mask、Doc2Box、Doc2Tag和Doc2Seq四大任务，能够有效帮助研究人员开发和评估文档图像处理模型。其数据驱动的文档分类方法结合了大规模预训练模型和人工参与，确保了数据的多样性和平衡性，为文档图像理解提供了坚实的基础。

解决学术问题

ADOPD数据集解决了文档图像理解中的多个关键学术问题，包括文档页面分解、实体识别、文本定位和语义标注等。通过提供高质量的标注数据，该数据集为研究人员提供了丰富的实验材料，推动了文档图像处理领域的技术进步。其数据驱动的分类方法还为文档图像理解任务的模型优化和性能评估提供了新的思路和方法。

实际应用

在实际应用中，ADOPD数据集可用于开发智能文档处理系统，如自动化文档分类、信息提取和内容生成等。这些系统在金融、法律、医疗等领域具有广泛的应用前景，能够显著提高文档处理的效率和准确性。此外，该数据集还可用于训练和评估多语言文档处理模型，支持跨语言的文档理解和分析。

数据集最近研究