vidore/syntheticDocQA_government_reports_test
收藏Hugging Face2024-07-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vidore/syntheticDocQA_government_reports_test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个特定主题的检索基准,涵盖了多个领域,并评估了在更现实的工业应用中的检索能力。数据集包含关于政府报告的文件,允许ViDoRe对行政/法律文件进行基准测试。数据收集部分详细描述了如何通过网络爬虫收集1000个PDF文件,并从这些文档中随机抽取1000页,与使用Claude-3 Sonnet模型生成的100个问题和答案相关联。数据整理部分提到,由于查询和答案是使用视觉语言模型生成的,因此人类注释者对其进行了广泛的质量和相关性过滤。数据集结构部分展示了数据集的实例结构,包括查询、图像、图像文件名、答案、页面、模型、提示和来源等特征。
This dataset is part of a topic-specific retrieval benchmark spanning multiple domains, which evaluates retrieval in more realistic industrial applications. It includes documents about the Government Reports that allow ViDoRe to benchmark administrative/legal documents. The data collection section details how 1,000 PDFs were collected using a web crawler, and 1,000 pages were randomly sampled from these documents, associated with 100 questions and answers generated using the Claude-3 Sonnet model. The data curation section mentions that since the queries and answers are generated using a Vision Language Model, human annotators extensively filtered them for quality and relevance. The dataset structure section shows the instance structure of the dataset, including features such as query, image, image filename, answer, page, model, prompt, and source.
提供机构:
vidore
原始信息汇总
数据集概述
基本信息
- 数据集名称: syntheticDocQA_government_reports_test
- 配置名称: default
- 语言: 英语
- 大小类别: n<1K
- 任务类别:
- 视觉问答
- 问答
- 标签:
- 多模态
- 检索
- 文档检索
- 行政
- 法律
- 政府报告
数据结构
- 特征:
query: 字符串image: 图像image_filename: 字符串answer: 字符串page: 字符串model: 字符串prompt: 字符串source: 字符串
数据分割
- 测试集:
- 样本数量: 1000
- 数据大小: 382540990 字节
数据收集
- 来源: 从互联网上收集的1000个PDF文件,查询关键词为“government reports”。
- 采样: 从这些文档中随机抽取了1000页。
- 问答生成: 使用Claude-3 Sonnet生成100个问题和答案。
数据加载
python from datasets import load_dataset ds = load_dataset("vidore/syntheticDocQA_government_reports_test", split="test")
引用信息
latex @misc{faysse2024colpaliefficientdocumentretrieval, title={ColPali: Efficient Document Retrieval with Vision Language Models}, author={Manuel Faysse and Hugues Sibille and Tony Wu and Gautier Viaud and Céline Hudelot and Pierre Colombo}, year={2024}, eprint={2407.01449}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2407.01449}, }
搜集汇总
数据集介绍

构建方式
在政府报告文档检索领域,该数据集的构建采用了系统化的网络爬虫技术,结合智能查询扩展策略。通过设定初始查询词“government reports”,利用GPT-3.5 Turbo模型生成相关子主题及多样化搜索查询,借助SerpAPI工具并行抓取互联网上的PDF文档,并利用布隆过滤器确保文档唯一性。随后,从收集的1000份PDF中随机抽取1000个页面,并采用Claude-3 Sonnet视觉语言模型为每个页面生成对应的问答对,最终经过人工严格筛选以保证数据质量与相关性。
特点
该数据集作为多模态文档检索基准的重要组成部分,专注于政府报告这一行政与法律文档领域,具有鲜明的专业性和实用性。其核心特征在于融合了视觉与文本信息,每个实例包含查询语句、文档页面图像、文件名、答案及元数据,支持视觉文档检索与问答任务的联合评估。数据集规模适中,涵盖1000个测试样本,结构清晰,且经过人工精心过滤,确保了问答对的高质量与主题相关性,为工业级应用场景提供了可靠的评测基础。
使用方法
在文档智能与多模态检索研究中,该数据集可通过Hugging Face的datasets库便捷加载。用户只需使用Python代码调用load_dataset函数,指定数据集名称与测试分割,即可获取结构化数据。每个实例以字典形式呈现,包含查询、图像、答案等关键字段,便于直接用于模型训练或评估。研究人员可基于此数据集开发或测试视觉语言模型在政府报告文档上的检索与问答能力,推动行政与法律文档自动化处理技术的进步。
背景与挑战
背景概述
在信息检索与多模态人工智能融合发展的背景下,政府报告等行政法律文档的智能化处理成为研究热点。vidore/syntheticDocQA_government_reports_test数据集于2024年由相关研究团队构建,旨在为文档检索与视觉问答任务提供高质量的基准测试资源。该数据集聚焦于政府报告领域,通过结合大规模语言模型与网络爬虫技术,采集并标注了多模态文档样本,核心研究问题在于评估模型在复杂行政文档中的跨模态理解与信息定位能力。其构建为行政文档分析、法律智能检索等应用场景提供了关键数据支撑,推动了多模态检索技术在专业垂直领域的深入探索。
当前挑战
该数据集致力于解决政府报告等行政法律文档的多模态检索与视觉问答问题,其核心挑战在于文档结构的复杂性、专业术语的密集性以及图文布局的多样性,这些因素共同增加了模型准确理解与定位信息的难度。在构建过程中,研究团队面临多重挑战:一是如何通过高效的网络爬虫与查询增强策略,从海量网络资源中精准采集相关且高质量的PDF文档;二是如何利用视觉语言模型生成与真实应用场景相符的查询与答案对,同时确保其语义准确性与逻辑一致性;三是需通过人工标注对合成数据进行严格的质量过滤,以克服模型生成内容可能存在的偏差或噪声,保障数据集的可靠性与实用性。
常用场景
经典使用场景
在政府报告文档理解领域,该数据集为多模态检索与问答任务提供了标准化的评估基准。其经典使用场景聚焦于测试视觉语言模型对行政与法律文档的跨模态理解能力,研究者通过模型对查询问题生成准确答案,从而评估系统在复杂文档结构中的信息定位与语义解析性能。
实际应用
在实际应用层面,该数据集可直接服务于政府机构的文档智能化管理系统,通过自动化问答技术提升政策文件检索效率。其构建方法为金融、医疗等垂直领域的文档处理系统提供了可复用的技术范式,助力企业实现海量非结构化文档的智能解析与知识抽取。
衍生相关工作
该数据集衍生的经典工作包括ColPali等高效文档检索架构的提出,这些研究通过视觉语言模型实现文档语义编码与跨模态对齐。相关成果进一步推动了多模态预训练技术在专业文档处理领域的应用,为后续行政文档分析、法律条文检索等垂直研究方向奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



