LongDocURL

github2024-12-26 更新2025-01-08 收录

下载链接：

https://github.com/dengc2023/LongDocURL

下载链接

链接失效反馈

官方服务：

资源简介：

LongDocURL基准测试专门用于评估模型在长文档理解方面的能力。我们收集了2,325个高质量的问答对，涵盖了396个PDF格式的文档和超过33,000页的内容，显著优于现有的基准测试。

The LongDocURL benchmark is specifically designed to evaluate models' capabilities in long document understanding. We have collected 2,325 high-quality question-answer pairs, covering 396 PDF-format documents and over 33,000 pages of content, which significantly outperforms existing benchmarks.

创建时间：

2024-12-16

原始信息汇总

LongDocURL 数据集概述

数据集简介

名称: LongDocURL
用途: 评估模型在长文档理解、推理和定位方面的能力。
数据规模: 包含 2,325 个高质量的问答对，覆盖 396 份 PDF 格式的文档，总计超过 33,000 页。
数据集地址: LongDocURL 数据集

数据集内容

文档格式: PDF
问答对: 2,325 个
文档数量: 396 份
总页数: 超过 33,000 页

数据集使用

1. 下载与提取

下载内容: PDF 文件和问答文件 (.jsonl)
提取工具: PyMuPDF
提取命令: bash bash utils/run_extract_ccpdf.sh
提取结果: 图片文件按以下结构组织： ├── 4000 │ └── 4000001.png └── 4001 ├── 4001001.png └── 4001002.png

2. 其他配置

API 密钥: 更新 config/api_config.json 文件，用于从详细响应中提取简短答案。
问答文件: 更新 data/LongDocURL.jsonl 文件，从 LongDocURL 下载。
API 模型: 默认使用 gpt4o-2024-05-13 提取简短答案。如需评估专有模型，请检查并修改 eval/api_models/model.py。

3. 评估 API 模型

评估命令: bash bash scripts/eval_api_models.sh
选项:
- process_mode: 默认 serial，可设置为 parallel 以并行执行，默认并行进程数为 8。
- image_prefix: 默认 None，需要时添加图片前缀以获取正确的图片路径。
- model_name: 模型缩写映射到 eval/api_models/model.py 中定义的实际模型类。

4. 计算指标

计算最终广义准确率: bash bash scripts/calculate_metrics.sh
计算细粒度广义准确率: bash bash scripts/calculate_metrics_fine_grained.sh

排行榜

模型	大小	理解能力	推理能力	定位能力	总分
GPT-4o-24-05-13 🥇	-	68.6	59.9	59.6	64.5
Gemini-1.5-Pro 🥈	-	55.7	43.4	46.4	50.9
Qwen-VL-Max 🥉	-	58.8	43.9	36.0	49.5
Qwen2-VL	7B	36.9	24.8	22.6	30.6
LLaVA-OneVision-Chat	7B	30.5	19.0	18.7	25.0
LLaVA-Next-Interleave-DPO	7B	21.6	13.9	7.6	16.2
Llama-3.2	11B	12.9	9.4	2.7	9.2

搜集汇总

数据集介绍

构建方式

LongDocURL数据集的构建基于对长文档理解能力的评估需求，涵盖了396份PDF格式的文档和超过33,000页的内容。通过精心收集和整理，形成了2,325个高质量的问答对，确保数据集的多样性和广泛性。PDF文档通过PyMuPDF工具提取为PNG图像和JSON文件，便于后续的多模态处理和分析。

使用方法

使用LongDocURL数据集时，首先需从Hugging Face平台下载PDF和问答文件，并通过提供的脚本将PDF提取为PNG图像和JSON文件。随后，用户可根据需求配置API密钥和模型参数，使用预定义的脚本进行模型评估。数据集支持并行处理，并提供了细粒度的指标计算脚本，便于用户深入分析模型在理解、推理和定位任务中的表现。

背景与挑战

背景概述

LongDocURL数据集由研究人员在2024年提出，旨在评估模型在长文档理解、推理和定位任务中的表现。该数据集由396份PDF格式的文档和超过33,000页内容组成，涵盖了2,325个高质量的问答对。其核心研究问题在于如何提升模型对长文档的多模态理解能力，尤其是在复杂文档结构下的信息提取与推理。LongDocURL的发布为自然语言处理领域提供了新的基准，推动了长文档处理技术的发展，并对多模态模型的研究产生了深远影响。

当前挑战

LongDocURL数据集面临的挑战主要体现在两个方面。首先，长文档的复杂结构和多模态特性使得模型在理解和推理过程中需要处理大量上下文信息，这对模型的记忆能力和推理能力提出了极高要求。其次，数据集的构建过程中，研究人员需要从海量文档中提取高质量的问答对，并确保其覆盖多样化的主题和文档类型，这一过程不仅耗时，还需要克服文档格式转换、信息标注一致性等技术难题。这些挑战为长文档处理领域的研究提供了新的方向，同时也对模型的性能提出了更高的标准。

常用场景

经典使用场景

LongDocURL数据集在长文档理解领域具有广泛的应用场景，尤其是在需要处理大量文本和图像数据的任务中。该数据集通过提供高质量的问答对和PDF文档，能够有效评估模型在长文档理解、推理和定位方面的能力。研究人员可以利用该数据集进行模型训练和评估，特别是在需要处理复杂文档结构和大规模文本数据的场景中。

解决学术问题

LongDocURL数据集解决了长文档理解领域中的多个关键学术问题。首先，它通过提供涵盖396份PDF文档和超过33,000页的问答对，显著提升了模型在长文档理解任务中的表现。其次，该数据集通过多模态数据的整合，解决了模型在处理复杂文档结构时的推理和定位问题，为学术界提供了一个全面评估模型能力的基准。

实际应用

在实际应用中，LongDocURL数据集可以广泛应用于法律文档分析、医学文献解读、技术手册理解等领域。例如，在法律领域，该数据集可以帮助自动化系统快速定位和理解复杂的法律条文；在医学领域，它可以辅助研究人员快速提取和分析大量的医学文献数据，从而提高研究效率。

数据集最近研究