PaperPDF
收藏PDF-WuKong 数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语 (en)
- 数据集名称: PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling
- 主页: https://github.com/yh-hust/PDF-Wukong
- Huggingface 数据集地址: https://huggingface.co/yh0075
数据集结构
PDF-Wukong
│
├── PaperPDF.py # 从XML文档提取文本和图像信息的代码
├── pdf_xml.zip # 由Grobid从PDF文档生成的XML文件
├── pdf_figure.z01 到 pdf_figure.z09 和 pdf_figure.zip # 包含提取的图像和元数据的分卷压缩文件
│ ├── figure # 从PDF文档提取的图像
│ └── data # 图像的元数据
│
├── Train
│ ├── train_100w.jsonl # 完整的100万训练数据
│ ├── train_50w.jsonl # 50万训练数据(用于消融研究)
│ └── train_10w.jsonl # 10万训练数据(用于消融研究)
│
└── Test
└── test.jsonl # 测试集
数据实例
每个实例包含以下字段: json { "PDF name": "1507.04291v1", "Category": "single-text_img", "Query": "According to Table 1, which sections discuss TCB-included Chebyshev kernels for both position and velocity?", "Answer": ["Sections 5.3.3 and 5.3.4 discuss TCB-included Chebyshev kernels for both position and velocity.", "Sections 5.3.3."], "Evidence": { "Texts": [{"idx": 11, "Text": "The six SPK data types..."}], "Figures": [{"idx": 220, "Caption": "Table 1: Double precision kernel data types of interest.", "Figure": "1507.04291v1-Table1-1.png"}] } }
数据字段
- PDF name: PDF文档名称(字符串)
- Category: 查询类别(字符串),包括:
single-text_only: 单文本段落证据single-img_only: 单图像及其标题证据multi-text_img: 引用图像的段落及相关图像和标题multi-section: 所有段落和包含的图像及其标题multi-cross_paragraph: 3个相关段落及相关图像和标题
- Query: 针对PDF的提问(字符串)
- Answer: 两个生成的答案(数组)
- Evidence: 支持性文本和图像(对象)
数据集创建
- 训练集: 使用Gemini 1.5 Flash创建,包含两个答案(简洁答案和详细答案)
- 测试集: 使用GPT-4和GPT-4v创建,包含两个简洁答案(关键词回答和单句回答)
引用
bibtex @article{xie2024pdfwukong, title={PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling}, author={Xie, Xudong and Yin, Liang and Yan, Hao and Liu, Yang and Ding, Jing and Liao, Minghui and Liu, Yuliang and Chen, Wei and Bai, Xiang}, year={2024}, journal={arXiv preprint arXiv:2410.05970}, url={https://arxiv.org/abs/2410.05970}, }




