PaperPDF

Hugging Face2024-10-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yh0075/PaperPDF

下载链接

链接失效反馈

官方服务：

资源简介：

PDF-WuKong数据集是一个用于高效长PDF阅读的大型多模态模型，包含从PDF文档中提取的文本和图像信息。数据集分为训练集和测试集，每个数据实例包括PDF名称、类别、查询、两个答案和证据对象。训练集和测试集的答案格式不同，训练集包含一个简洁答案和一个详细答案，而测试集包含两个简洁答案，分别使用少量关键词和一句话。数据集的创建使用了Gemini 1.5 Flash和GPT-4及GPT-4v。

创建时间：

2024-10-16

原始信息汇总

PDF-WuKong 数据集概述

基本信息

许可证: Apache-2.0
语言: 英语 (en)
数据集名称: PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling
主页: https://github.com/yh-hust/PDF-Wukong
Huggingface 数据集地址: https://huggingface.co/yh0075

数据集结构

PDF-Wukong │ ├── PaperPDF.py # 从XML文档提取文本和图像信息的代码 ├── pdf_xml.zip # 由Grobid从PDF文档生成的XML文件
├── pdf_figure.z01 到 pdf_figure.z09 和 pdf_figure.zip # 包含提取的图像和元数据的分卷压缩文件 │ ├── figure # 从PDF文档提取的图像 │ └── data # 图像的元数据 │ ├── Train
│ ├── train_100w.jsonl # 完整的100万训练数据 │ ├── train_50w.jsonl # 50万训练数据（用于消融研究） │ └── train_10w.jsonl # 10万训练数据（用于消融研究） │ └── Test └── test.jsonl # 测试集

数据实例

每个实例包含以下字段： json { "PDF name": "1507.04291v1", "Category": "single-text_img", "Query": "According to Table 1, which sections discuss TCB-included Chebyshev kernels for both position and velocity?", "Answer": ["Sections 5.3.3 and 5.3.4 discuss TCB-included Chebyshev kernels for both position and velocity.", "Sections 5.3.3."], "Evidence": { "Texts": [{"idx": 11, "Text": "The six SPK data types..."}], "Figures": [{"idx": 220, "Caption": "Table 1: Double precision kernel data types of interest.", "Figure": "1507.04291v1-Table1-1.png"}] } }

数据字段

PDF name: PDF文档名称（字符串）
Category: 查询类别（字符串），包括：
- single-text_only: 单文本段落证据
- single-img_only: 单图像及其标题证据
- multi-text_img: 引用图像的段落及相关图像和标题
- multi-section: 所有段落和包含的图像及其标题
- multi-cross_paragraph: 3个相关段落及相关图像和标题
Query: 针对PDF的提问（字符串）
Answer: 两个生成的答案（数组）
Evidence: 支持性文本和图像（对象）

数据集创建

训练集: 使用Gemini 1.5 Flash创建，包含两个答案（简洁答案和详细答案）
测试集: 使用GPT-4和GPT-4v创建，包含两个简洁答案（关键词回答和单句回答）

引用

bibtex @article{xie2024pdfwukong, title={PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling}, author={Xie, Xudong and Yin, Liang and Yan, Hao and Liu, Yang and Ding, Jing and Liao, Minghui and Liu, Yuliang and Chen, Wei and Bai, Xiang}, year={2024}, journal={arXiv preprint arXiv:2410.05970}, url={https://arxiv.org/abs/2410.05970}, }

搜集汇总

数据集介绍

构建方式

PaperPDF数据集的构建过程依托于先进的自然语言处理技术，通过Gemini 1.5 Flash生成训练集，GPT-4和GPT-4v生成测试集。数据来源于PDF文档，使用Grobid工具将PDF转换为XML格式，并从中提取文本和图像信息。训练集和测试集的格式一致，但答案的提示模板有所不同，训练集包含简洁和详细两种答案，测试集则包含两种简洁答案。

使用方法

使用PaperPDF数据集时，首先需下载并解压相关文件，包括XML文档和图像数据。通过提供的代码提取文本和图像信息，生成训练和测试数据。训练集可用于模型训练，测试集则用于评估模型性能。数据集的多模态特性使其适用于长PDF文档的高效阅读和理解任务，尤其适合需要结合文本和图像信息的应用场景。

背景与挑战

背景概述

PDF-WuKong数据集由Xie Xudong等研究人员于2024年提出，旨在解决长PDF文档的高效阅读问题。该数据集结合了多模态模型与端到端稀疏采样技术，能够从PDF文档中提取文本和图像信息，并生成相应的问答对。其核心研究问题在于如何通过稀疏采样技术减少计算资源消耗，同时保持对长文档的全面理解。PDF-WuKong的提出为自然语言处理与计算机视觉的交叉领域提供了新的研究范式，推动了多模态文档理解技术的发展。

当前挑战

PDF-WuKong数据集在构建与应用中面临多重挑战。首先，长PDF文档的复杂性使得信息提取与理解变得困难，尤其是跨段落与跨模态的证据整合。其次，稀疏采样技术的引入虽然降低了计算成本，但也可能导致关键信息的遗漏，影响模型的准确性。此外，数据集的构建依赖于大语言模型（如Gemini 1.5 Flash、GPT-4等）生成问答对，这可能导致数据偏差与噪声问题。如何在保证数据质量的同时提升模型的泛化能力，是该数据集未来需要解决的核心挑战。

常用场景

经典使用场景

PaperPDF数据集在学术研究中的经典使用场景主要集中在对长PDF文档的高效阅读与信息提取。通过其内置的多模态模型，研究者能够快速从复杂的PDF文档中提取文本和图像信息，尤其适用于处理包含大量图表和跨段落引用的学术论文。该数据集的使用显著提升了研究人员在处理长文档时的效率，特别是在需要从多源信息中整合证据的场景下。

解决学术问题

PaperPDF数据集解决了学术研究中长PDF文档处理效率低下的问题。传统方法在处理包含大量图表和跨段落引用的文档时，往往需要耗费大量时间和精力。该数据集通过端到端的稀疏采样技术，实现了对长文档的高效阅读和信息提取，显著提升了研究效率。此外，其多模态模型能够同时处理文本和图像信息，为跨模态信息整合提供了新的解决方案。

实际应用

在实际应用中，PaperPDF数据集被广泛用于学术文献的自动化处理与分析。例如，在文献综述撰写过程中，研究者可以利用该数据集快速提取关键信息，减少手动阅读和整理的时间。此外，该数据集还可应用于智能问答系统，帮助用户从PDF文档中快速获取所需信息，提升用户体验。其高效的信息提取能力使其在学术出版、知识管理等领域具有广泛的应用前景。

数据集最近研究