five

LongDocURL|文档理解数据集|多模态任务数据集

收藏
arXiv2024-12-27 更新2024-12-26 收录
文档理解
多模态任务
下载链接:
https://github.com/dengc2023/LongDocURL
下载链接
链接失效反馈
资源简介:
LongDocURL是一个由中国科学院自动化研究所和阿里巴巴淘宝天猫集团联合创建的多模态长文档基准数据集,旨在评估模型在处理复杂文档元素、长上下文和多样化任务中的能力。该数据集包含2325个高质量问答对,覆盖了超过33,000页的文档,涵盖了理解、推理和定位三大任务,并细分为20个子任务。数据集的构建采用了半自动化的流程,包括文档筛选、问答生成和自动化与人工验证等步骤。LongDocURL的应用领域主要集中在文档理解、数值推理和跨元素定位等任务,旨在解决现有基准在处理长文档和复杂元素时的不足,推动文档理解领域的发展。
提供机构:
中国科学院自动化研究所, 中国科学院大学人工智能学院, 阿里巴巴淘宝天猫集团
创建时间:
2024-12-24
原始信息汇总

LongDocURL 数据集概述

数据集简介

  • 名称: LongDocURL
  • 用途: 评估模型在长文档理解、推理和定位方面的能力。
  • 数据量: 包含 2,325 个高质量的问答对,覆盖 396 个 PDF 格式的文档,总计超过 33,000 页。
  • 数据格式: PDF 文件和问答对文件(.jsonl)。

数据集获取

评估方法

  1. 下载与提取 PDF 文件:

    • LongDocURL 下载 PDF 和问答对文件。
    • 使用 PyMuPDF 提取 PDF 文件为 png 和 json 文件,运行以下命令: bash bash utils/run_extract_ccpdf.sh
  2. 评估 API 模型:

    • 运行以下命令进行评估: bash bash scripts/eval_api_models.sh

排行榜

模型 大小 理解能力 推理能力 定位能力 总分
GPT-4o-24-05-13 🥇 - 68.6 59.9 59.6 64.5
Gemini-1.5-Pro 🥈 - 55.7 43.4 46.4 50.9
Qwen-VL-Max 🥉 - 58.8 43.9 36.0 49.5
Qwen2-VL 7B 36.9 24.8 22.6 30.6
LLaVA-OneVision-Chat 7B 30.5 19.0 18.7 25.0
LLaVA-Next-Interleave-DPO 7B 21.6 13.9 7.6 16.2
Llama-3.2 11B 12.9 9.4 2.7 9.2
AI搜集汇总
数据集介绍
main_image_url
构建方式
LongDocURL数据集的构建采用了半自动化的流程,涵盖了从文档筛选到问答对生成的多个模块。首先,通过Extract & Filter模块从CommonCrawl中筛选出适合长度的文档,确保文档布局丰富且语言为英文。接着,利用GPT-4o等先进模型进行多步迭代查询,生成高质量的问答对,并通过Automated Verification和Human Verification模块确保数据的准确性和一致性。最终,生成了2,325个问答对,覆盖了超过33,000页的文档内容。
特点
LongDocURL数据集的特点在于其全面性和多样性。数据集涵盖了长文档理解、数值推理和跨元素定位三大任务,并细分为20个子任务,基于不同的任务类型和证据来源。数据集包含多种文档类型,如研究报告、用户手册、书籍等,平均每份文档长达85.6页。此外,数据集的问答对涉及单页和多页信息,且包含跨元素的复杂任务,能够有效评估模型在处理长文档和复杂布局时的能力。
使用方法
LongDocURL数据集的使用方法主要围绕三大任务展开:理解、推理和定位。用户可以通过数据集中的问答对评估模型在长文档中的信息提取能力、数值推理能力以及跨元素定位能力。数据集支持多种输入格式,包括文本和图像输入,用户可以根据需求选择合适的输入方式。此外,数据集提供了详细的证据来源和答案格式,便于用户进行自动化评估和模型性能分析。通过该数据集,用户可以全面评估模型在处理长文档和复杂布局时的表现,并发现模型在文档理解领域的潜在差距。
背景与挑战
背景概述
LongDocURL数据集由中国科学院自动化研究所和阿里巴巴集团的研究团队于2024年提出,旨在解决长文档理解、数值推理和跨元素定位等复杂任务。该数据集包含2,325个高质量问答对,覆盖超过33,000页文档,显著超越了现有的文档理解基准。LongDocURL的提出标志着文档理解领域的一个重要进展,尤其是在处理多页文档和复杂布局元素方面。该数据集不仅为大规模视觉语言模型(LVLMs)提供了新的评估标准,还推动了文档理解技术的进一步发展。
当前挑战
LongDocURL数据集面临的挑战主要体现在两个方面。首先,现有的文档理解基准大多局限于单页文档,无法全面评估模型在多页文档中的表现,尤其是在跨页信息提取和复杂布局元素理解方面。其次,数据集的构建过程中,研究人员面临如何高效生成高质量问答对的难题。尽管采用了半自动化的构建流程,但在确保问答对的准确性和多样性方面仍需大量人工干预。此外,如何有效评估模型在跨元素定位任务中的表现,尤其是在处理表格、图表等复杂元素时,仍是一个亟待解决的问题。
常用场景
经典使用场景
LongDocURL数据集在长文档理解、数值推理和跨元素定位任务中展现了其经典使用场景。通过涵盖超过33,000页文档的2,325个高质量问答对,该数据集为评估大视觉语言模型(LVLMs)在处理复杂文档元素、长上下文和多样化任务中的能力提供了基准。特别是在跨页文档理解和跨元素定位任务中,LongDocURL通过其丰富的布局元素和多页文档结构,显著提升了模型在复杂文档任务中的表现。
实际应用
在实际应用中,LongDocURL数据集可用于评估和改进大视觉语言模型在处理长文档和复杂布局元素时的性能。例如,在法律、医疗和金融等领域,文档通常包含大量跨页信息和复杂的表格、图表等元素。通过在该数据集上进行训练和评估,模型可以更好地理解这些文档的结构和内容,从而在实际应用中提供更准确的问答和推理服务。此外,LongDocURL还可用于开发智能文档处理系统,帮助用户快速定位和提取关键信息。
衍生相关工作
LongDocURL的推出催生了一系列相关研究工作,特别是在多模态长文档理解和跨元素定位任务方面。基于该数据集,研究者们开发了多种新的模型架构和训练方法,以提升模型在长文档任务中的表现。例如,一些研究提出了基于多模态检索增强生成(MM-RAG)的方法,通过动态减少多页文档中的冗余信息,提升了模型的长上下文处理能力。此外,LongDocURL还为其他文档理解基准(如DocVQA和MMLongBench)提供了新的评估标准,推动了该领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

波士顿房价数据集

波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。

阿里云天池 收录