RephColHNQue-RephrasedColPaliHardNegativeQueries

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/DocReRank/RephColHNQue-RephrasedColPaliHardNegativeQueries

下载链接

链接失效反馈

官方服务：

资源简介：

RephColHNQue（重写的ColPaliHardNegativeQueries）数据集来源于论文《DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers》。该数据集包含了对应于ColHNQue数据集的重写后正查询，这些查询可以从页面图像中找到答案。数据集的目的是用于训练多模态RAG重排器。

创建时间：

2025-07-21

原始信息汇总

RephColHNQue (RephrasedColPaliHardNegativeQueries) 数据集概述

数据集基本信息

许可证: CC-BY-4.0
下载大小: 6,181,402 字节
数据集大小: 10,815,307 字节
训练集样本数: 117,693 条

数据集来源

引入论文: DocReRank: Single‑Page Hard Negative Query Generation for Training Multi‑Modal RAG Rerankers
相关数据集: ColHNQue
项目页面: DocReRank Project Page

数据集内容

特征列:
- positive_queries: 包含从页面图像可回答的重述正面查询的列表。

加载方式

python from datasets import load_dataset

从Hugging Face Hub加载

dataset = load_dataset("DocReRank/RephColHNQue-RephrasedColPaliHardNegativeQueries")

显示示例

example = dataset["train"][0] print(example)

引用信息

bibtex @article{wasserman2025docrerank, title={DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers}, author={Wasserman, Navve and Heinimann, Oliver and Golbari, Yuval and Zimbalist, Tal and Schwartz, Eli and Irani, Michal}, journal={arXiv preprint arXiv:2505.22584}, year={2025} }

搜集汇总

数据集介绍

构建方式

在跨模态信息检索领域，RephColHNQue数据集通过精心设计的重构流程构建而成。该数据集源自ColHNQue数据集中的正例查询，采用先进的文本重述技术对原始查询进行语义保持的多样化改写。研究人员基于DocReRank论文提出的方法，确保每个重述查询在保持原始语义的前提下，实现表达方式的多样性，为多模态检索增强生成（RAG）系统的训练提供高质量数据支持。

特点

RephColHNQue数据集展现出鲜明的技术特征，其核心价值在于提供经过专业重构的正例查询集合。每个数据样本包含一组语义等价的查询变体，这些变体在词汇选择和句式结构上呈现显著差异，同时严格保持与原始文档图像的对应关系。数据集包含117,693个训练样本，采用轻量化的字符串序列格式存储，兼顾数据丰富性与处理效率，为跨模态检索模型的鲁棒性训练创造理想条件。

使用方法

该数据集的使用遵循标准化的跨模态研究范式，通过Hugging Face数据集库即可便捷加载。研究人员只需调用load_dataset函数指定数据集路径，即可获取结构化训练数据。典型应用场景包括多模态检索模型的微调训练，其中重述查询可作为数据增强样本，有效提升模型对查询表达多样性的适应能力。数据集的轻量化设计使得其能够无缝集成到现有训练流程中，无需复杂的预处理步骤。

背景与挑战

背景概述

RephColHNQue数据集由Navve Wasserman等研究人员在2025年提出，旨在为多模态RAG（检索增强生成）重排模型的训练提供高质量的重新表述查询。该数据集作为ColHNQue数据集的补充，专注于生成可从页面图像中回答的正向查询的多种表述形式。其核心研究问题在于解决传统RAG系统中由于查询表述单一导致的模型泛化能力不足的问题。通过引入多样化的查询表述，该数据集显著提升了多模态检索系统对用户意图的理解能力，为文档检索和问答系统的性能优化提供了重要支持。

当前挑战

RephColHNQue数据集面临的挑战主要体现在两个方面：在领域问题层面，如何确保重新生成的查询既能保持原始查询的语义一致性，又能有效覆盖多样化的表述方式，这对模型的语义理解和生成能力提出了较高要求；在构建过程层面，数据集依赖于自动化的查询重述技术，如何平衡生成查询的多样性与准确性，避免引入噪声或偏离原始查询的语义，是构建过程中的主要难点。此外，多模态场景下查询与图像内容的对齐问题也增加了数据标注和验证的复杂性。

常用场景

经典使用场景

在信息检索与多模态学习领域，RephColHNQue数据集为研究者提供了丰富的重述查询样本，特别适用于训练和评估检索增强生成（RAG）系统中的重排序模型。通过对比原始查询与重述版本，模型能够学习捕捉语义不变性，提升对用户意图的鲁棒性理解。该数据集常被用于构建端到端的跨模态检索流水线，其中文本查询需要与视觉文档内容进行精准匹配。

衍生相关工作

基于RephColHNQue的经典研究包括跨模态对比学习框架的优化，以及基于注意力机制的查询重述生成模型。相关成果发表在ACL、EMNLP等顶级会议，推动了动态负采样策略和细粒度跨模态对齐技术的发展。部分工作进一步扩展了数据集应用场景，将其与视觉语言预训练模型结合，开创了文档理解的新范式。

数据集最近研究