ColHNQue-ColPaliHardNegativeQueries

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/DocReRank/ColHNQue-ColPaliHardNegativeQueries

下载链接

链接失效反馈

官方服务：

资源简介：

ColHNQue数据集，全称为ColPaliHardNegativeQueries，是一种用于训练多模态检索和重排模型的数据集。该数据集通过在页面/图像级别生成难负查询，解决了文档级别难负样本挖掘的限制。每个页面图像配有一个正查询和多个生成的负查询，这些负查询在语义上与正查询相似，但是无法从页面图像中找到答案。该数据集支持多模态检索和重排模型的训练，有助于构建更稳健准确的重排增强生成（RAG）系统。

创建时间：

2025-07-21

原始信息汇总

数据集概述：ColHNQue (ColPaliHardNegativeQueries)

基本信息

许可证：cc-by-4.0
下载大小：52,210,976,943 字节
数据集大小：54,125,603,838.375 字节
训练集样本数：117,693

数据集简介

ColHNQue数据集在论文《DocReRank: Single‑Page Hard Negative Query Generation for Training Multi‑Modal RAG Rerankers》中提出。该数据集通过生成页面/图像级别的困难负查询，解决了文档级别困难负挖掘的局限性。每个页面及其对应的正查询会生成多个语义相似但无法从该页面回答的负查询。

数据特征

image：文档页面图像。
positive_queries：包含可从页面图像回答的正查询的列表。
negative_queries：列表的列表，其中内部列表包含多个困难负查询。
answer：与正查询关联的正确答案。

加载方式

python from datasets import load_dataset

dataset = load_dataset("DocReRank/ColHNQue-ColPaliHardNegativeQueries") example = dataset["train"][0] print(example)

引用

bibtex @article{wasserman2025docrerank, title={DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers}, author={Wasserman, Navve and Heinimann, Oliver and Golbari, Yuval and Zimbalist, Tal and Schwartz, Eli and Irani, Michal}, journal={arXiv preprint arXiv:2505.22584}, year={2025} }

搜集汇总

数据集介绍

构建方式

ColHNQue数据集通过创新的单页级困难负样本查询生成技术构建，旨在解决文档级负样本挖掘的局限性。该数据集基于ColPali训练集中的正样本查询，为每个页面图像生成多个语义相似但无法从该页面回答的负样本查询。构建过程采用多模态方法，确保生成的负样本查询既保持语义相关性又具有精确的不可回答性，为训练检索和重排序模型提供了高质量的数据支持。

使用方法

使用ColHNQue数据集时，可通过Hugging Face的datasets库直接加载，便捷地获取图像、正负查询及对应答案的多模态数据。该数据集专为训练多模态检索和重排序模型优化，研究人员可将图像与文本查询联合输入模型，通过对比学习区分正负样本。数据集的标准化格式便于集成到现有训练流程中，为开发更精准的RAG系统提供有力支持。

背景与挑战

背景概述

ColHNQue-ColPaliHardNegativeQueries数据集由Navve Wasserman等研究人员于2025年提出，旨在解决多模态检索增强生成（RAG）系统中文档级困难负样本挖掘的局限性。该数据集基于ColPali训练集构建，通过页面级图像与正负查询对的精细标注，为多模态重排序模型的训练提供了高质量数据支持。其创新性在于生成语义相似但无法从当前页面回答的困难负查询，显著提升了RAG系统在跨模态检索任务中的鲁棒性，相关成果发表于arXiv预印本平台并配套开源项目页面。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，传统文档级负采样难以捕捉页面级细粒度语义差异，而本数据集需要确保生成的负查询与正查询具有足够语义相似度却保持不可回答性；在构建过程层面，大规模页面图像与查询对的精确匹配需要复杂的人工校验，同时多层级嵌套的负查询序列（negative_queries字段）对数据存储和加载效率提出了严峻考验，原始数据规模超过54GB的存储需求进一步加剧了计算资源消耗。

常用场景

经典使用场景

在跨模态信息检索领域，ColHNQue数据集通过提供页面级硬负样本查询，为多模态检索模型的训练提供了关键支持。该数据集的核心应用场景在于训练和评估基于视觉-语言联合表示的检索模型，特别是在文档图像与自然语言查询的匹配任务中。研究人员可利用其构建的硬负样本对，显著提升模型区分细微语义差异的能力。

解决学术问题

该数据集有效解决了传统文档级负样本挖掘粒度粗糙的学术难题，通过页面级硬负查询生成技术，填补了细粒度跨模态负样本构建的研究空白。其创新性地将不可回答问题与视觉内容建立关联，为提升检索增强生成系统的语义判别能力提供了基准数据，推动了多模态表示学习领域的方法创新。

实际应用

在实际工业场景中，ColHNQue数据集可优化智能文档处理系统的检索性能，特别适用于法律文书检索、医疗报告查询等需要高精度匹配的垂直领域。其构建的硬负样本机制能显著降低金融风控、学术查重等关键场景中的误检率，提升基于RAG架构的商业问答系统的可靠性。

数据集最近研究