DocGenome
收藏arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://unimodal4reasoning.github.io/DocGenome_page
下载链接
链接失效反馈官方服务:
资源简介:
DocGenome是由上海人工智能实验室创建的一个大规模科学文档基准数据集,包含50万篇来自arXiv开放访问社区的科学文档,涵盖153个学科。该数据集通过定制的自动标注管道进行结构化处理,具有完整性、逻辑性、多样性和正确性四大特点。数据集内容丰富,包括文档分类、视觉定位、文档布局检测等多种任务,旨在通过这些任务提升大型模型处理科学文档的能力。创建过程中,采用了先进的自动标注技术,确保数据质量。DocGenome的应用领域广泛,主要用于评估和提升多模态大型语言模型在科学文档处理方面的性能,推动AI辅助科学探索和发现。
DocGenome is a large-scale scientific document benchmark dataset developed by the Shanghai AI Laboratory. It contains 500,000 scientific documents sourced from the arXiv open access community, spanning 153 academic disciplines. The dataset has been structured via a customized automatic annotation pipeline, and exhibits four core characteristics: completeness, logical rigor, diversity, and correctness. It offers a diverse suite of tasks including document classification, visual grounding, document layout detection and more, with the goal of advancing the capabilities of large models in processing scientific documents. During its construction, cutting-edge automatic annotation technologies were employed to ensure high data quality. DocGenome has broad application prospects, and is primarily used to evaluate and improve the performance of multimodal large language models in scientific document processing, thereby facilitating AI-assisted scientific exploration and discovery.
提供机构:
上海人工智能实验室
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
DocGenome数据集的构建采用了先进的自动标注工具DocParser,该工具通过四个主要阶段处理arXiv开放获取社区中的科学文档。首先,数据预处理阶段通过扩展引用文件、标准化图形格式等步骤提高数据质量。其次,单元分割阶段将文档内容分解为独立的组件单元。接着,属性分配与关系检索阶段为每个单元分配13种布局属性,并提取6种逻辑关系。最后,颜色渲染阶段通过生成PDF文件提取每个单元的边界框。整个过程自动化程度高,确保了数据的一致性和准确性。
特点
DocGenome数据集具有四大显著特点:1)完整性:首次涵盖了包括13种布局属性及其LaTeX源代码在内的所有模态数据。2)逻辑性:提供了科学文档中不同实体之间的6种逻辑关系。3)多样性:覆盖了文档分类、视觉定位、文档布局检测、文档转换、单页问答和多页问答等多种任务。4)正确性:通过专业团队的严格质量控制,确保了数据的高质量。这些特点使得DocGenome成为评估多模态大语言模型在科学文档理解任务中的理想基准。
使用方法
DocGenome数据集的使用方法广泛且灵活,适用于多种文档理解任务。用户可以通过加载数据集并提取其中的布局属性、逻辑关系等信息,进行文档分类、视觉定位、布局检测等任务。此外,数据集还支持文档转换任务,如将表格和公式转换为LaTeX格式。对于问答任务,用户可以利用数据集中的单页和多页问答对,评估模型在跨页信息整合方面的能力。通过结合DocGenome提供的丰富标注信息,研究人员可以训练和评估多模态大语言模型在科学文档理解中的表现。
背景与挑战
背景概述
DocGenome数据集由上海人工智能实验室、上海交通大学、浙江大学和复旦大学的研究团队于2024年提出,旨在为多模态大语言模型(MLLMs)提供训练和测试的科学文档基准。该数据集基于arXiv开放获取社区的50万篇科学文档,涵盖了153个学科,并通过自动标注工具DocParser生成了结构化数据。DocGenome首次将科学文档中的多模态数据(如图表、公式等)与其LaTeX源代码相结合,提供了13种布局属性和6种实体间的逻辑关系。该数据集的构建不仅推动了科学文档理解领域的研究,还为评估大模型在处理复杂文档任务中的能力提供了重要基准。
当前挑战
DocGenome数据集在构建和应用过程中面临多重挑战。首先,科学文档的多模态特性(如图表、公式等)使得模型在理解和提取信息时面临复杂性,尤其是跨页文档的理解和多模态数据的融合。其次,自动标注工具DocParser在处理大规模文档时,需确保标注的准确性和一致性,尤其是在处理复杂的逻辑关系和布局结构时。此外,数据集的多样性要求模型能够适应不同学科和文档格式,这对模型的泛化能力提出了更高要求。最后,DocGenome的构建过程涉及大量数据预处理和质量控制,确保数据的高质量标注和逻辑一致性是另一大挑战。
常用场景
经典使用场景
DocGenome数据集在科学文档的多模态理解任务中具有广泛的应用场景。其最经典的使用场景之一是用于训练和评估多模态大语言模型(MLLMs)在科学文档中的表现。通过提供包含图表、公式、表格等多种模态的文档数据,DocGenome能够帮助模型学习如何从复杂的文档结构中提取和理解信息。此外,该数据集还支持文档分类、视觉定位、文档布局检测、文档转换等多种任务,为模型提供了丰富的训练和测试环境。
实际应用
DocGenome在实际应用中具有广泛的潜力。首先,它可以用于开发智能文档处理系统,帮助科研人员快速从大量科学文献中提取关键信息。其次,该数据集可以用于构建自动化的文档转换工具,例如将表格和公式转换为LaTeX格式,极大提高了文档编辑的效率。此外,DocGenome还可以用于开发多模态问答系统,帮助用户通过自然语言查询从科学文档中获取精确答案,提升科研工作的效率。
衍生相关工作
DocGenome的发布推动了多个相关领域的研究进展。基于该数据集,研究者们开发了多种多模态大语言模型,如QWen-VL、CogAgent等,这些模型在文档理解任务中表现出色。此外,DocGenome还催生了一系列文档布局检测和文档转换工具,如DocXChain和YOLOv8,这些工具在科学文档处理中得到了广泛应用。未来,随着更多研究者使用DocGenome,预计将会有更多创新的模型和工具涌现,进一步推动科学文档理解领域的发展。
以上内容由遇见数据集搜集并总结生成



