PRISM
收藏arXiv2026-01-16 更新2026-01-20 收录
下载链接:
https://github.com/JOHNNY-fans/Rank4Gen
下载链接
链接失效反馈官方服务:
资源简介:
PRISM是由华东理工大学、腾讯及中科院联合构建的生成器偏好对齐数据集,旨在优化RAG系统中的文档排序策略。该数据集包含1.3万条双语(中英文)样本,整合了HotpotQA、2WikiMultiHopQA等5个公开多跳问答和检索基准数据,覆盖事实检索、组合推理等多种任务类型。通过三阶段构建流程(数据收集、响应质量对齐、生成器条件偏好对齐),系统捕捉了文档组合排序对生成质量的影响。其核心应用于提升生成式AI的证据聚合能力,解决传统检索排序与生成器效用不匹配的问题。
PRISM is a generator preference alignment dataset jointly constructed by East China University of Science and Technology, Tencent and the Chinese Academy of Sciences, aiming to optimize document ranking strategies in Retrieval-Augmented Generation (RAG) systems. This dataset includes 13,000 bilingual (Chinese and English) samples, integrating five public multi-hop question answering and retrieval benchmark datasets such as HotpotQA and 2WikiMultiHopQA, covering various task types including factual retrieval and compositional reasoning. It follows a three-stage construction pipeline: data collection, response quality alignment, and generator conditional preference alignment, which captures the impact of document combination ranking on generation quality. Its core application is to enhance the evidence aggregation capability of generative AI and address the mismatch between traditional retrieval ranking and generator utility.
提供机构:
华东理工大学; 腾讯; 中国科学院大学; 中国科学院软件研究所·中文信息处理实验室
创建时间:
2026-01-16
原始信息汇总
Rank4Gen 数据集概述
数据集简介
Rank4Gen 是一个用于检索增强生成(RAG)中偏好对齐的文档集选择与排序的数据集及方法。其核心是训练一个排序器模型,从候选文档集中选择并排序一个子集,以供下游生成模型使用,旨在提升RAG系统的答案质量。
数据集内容与结构
数据集详情页面提供了用于训练和评估的数据集链接。
训练数据集
-
Rank4Gen-SFT-dataset
- 描述: 基于PRISM_13K构建的监督微调数据集。
- 获取地址: https://huggingface.co/datasets/Johnnyfans/Rank4Gen-SFT-dataset
-
Rank4Gen-DPO-dataset
- 描述: 基于PRISM_13K构建的DPO(直接偏好优化)数据集。
- 获取地址: https://huggingface.co/datasets/Johnnyfans/Rank4Gen-DPO-dataset
评估数据示例
- 文件路径:
evaluation/input/sampled_data.jsonl - 数据格式: 每个样本为JSONL格式,包含
id、query、answers和documents字段。documents是一个列表,其中每个文档包含id、text、title、is_supporting等信息。
关联模型
该方法发布了基于Qwen3-8B微调的多个排序器模型,可通过提供的ModelScope链接获取。
-
Rank4Gen-DPO-Qwen3-8B
- 描述: 基于Qwen3-8B,经过完整的SFT和DPO训练,支持
/index模式和快照模式。 - 获取地址: https://modelscope.cn/models/JohnnyFan/Rank4Gen-DPO-Qwen3-8B
- 描述: 基于Qwen3-8B,经过完整的SFT和DPO训练,支持
-
Rank4Gen-SFT-Qwen3-8B
- 描述: 基于Qwen3-8B,仅经过监督微调,未进行DPO优化。
- 获取地址: https://modelscope.cn/models/JohnnyFan/Rank4Gen-SFT-Qwen3-8B
-
Rank4Gen-DPO-Qwen3-8B-index
- 描述: 基于Qwen3-8B,经过完整的SFT和DPO训练,专门针对
/index模式推理进行了优化。 - 获取地址: https://modelscope.cn/models/JohnnyFan/Rank4Gen-DPO-Qwen3-8B-index
- 描述: 基于Qwen3-8B,经过完整的SFT和DPO训练,专门针对
-
Rank4Gen-SFT-Qwen3-8B-index
- 描述: 基于Qwen3-8B,仅经过SFT训练,专为
/index模式使用而定制。 - 获取地址: https://modelscope.cn/models/JohnnyFan/Rank4Gen-SFT-Qwen3-8B-index
- 描述: 基于Qwen3-8B,仅经过SFT训练,专为
评估方法
评估流程分为三步:
- 排序器推理: 运行排序器模型为每个查询选择并排序文档子集。
- 下游问答推理: 运行下游生成模型,基于选定的文档生成答案。
- 答案质量评估: 计算生成答案的精确匹配率和F1分数。
引用信息
如果使用Rank4Gen,请引用以下论文:
- 标题: Rank4Gen: RAG-Preference-Aligned Document Set Selection and Ranking
- 作者: Yongqi Fan, Yuxiang Chu, Zhentao Xia, Xiaoyang Chen, Jie Liu, Haijin Liang, Jin Ma, Ben He, Yingfei Sun, Dezhi Ye, Tong Ruan
- 年份: 2026
- arXiv地址: https://arxiv.org/abs/2601.11273
许可证
项目遵循LICENSE文件中指定的许可证。
搜集汇总
数据集介绍

构建方式
在检索增强生成领域,传统排序模型通常聚焦于查询与文档的相关性,而PRISM数据集的构建则突破了这一局限,旨在实现排序决策与下游生成质量的深度对齐。该数据集整合了多个开源语料库,包括HotpotQA、2WikiMultiHopQA、MUSIQUE、MS MARCO以及CRUD-RAG,覆盖了从事实检索到多跳推理的多样化任务。构建过程通过枚举正文档的全排列以及混合正负文档的多样化子集,生成大量有序文档集合,并利用基于大语言模型的自动评估机制,依据生成答案的质量对这些集合进行偏好标注,从而形成了面向生成器感知的监督信号。
特点
PRISM数据集的核心特征在于其明确的双重偏好建模策略。一方面,它实现了从排序相关性到响应质量的转变,将文档子集的效用直接与下游生成答案的优劣挂钩,而非仅仅依赖于传统的相关性分数。另一方面,数据集引入了生成器特定的偏好建模,为覆盖的七个开源大语言模型生成器分别构建了包含唯一标识符和文本描述的元数据,使得排序模型能够学习并适应不同生成器在证据利用和上下文组织上的独特倾向。这种设计使PRISM成为一个支持跨生成器、跨语言(中英文)且面向文档集合选择的统一基准。
使用方法
PRISM数据集主要用于训练和评估像Rank4Gen这样的生成器感知排序模型。在使用时,模型首先接收查询和候选文档集合,同时可条件化于特定生成器的标识信息。训练过程通常采用两阶段策略:先进行基于相关性的监督微调,使模型掌握基础的文档选择与结构化输出能力;随后利用数据集提供的偏好对(即优选与次选的有序文档集)进行直接偏好优化,从而将排序决策与生成器的证据使用偏好对齐。在推理阶段,训练好的模型能够为指定的下游生成器输出一个经过优选和排序的文档子集,作为其生成高质量回答的上下文证据。
背景与挑战
背景概述
PRISM数据集是2025年由华东理工大学与腾讯、中国科学院软件研究所等机构联合构建的,旨在支持检索增强生成(RAG)中面向生成器的排序研究。该数据集的核心研究问题在于解决传统检索排序模型与下游大语言模型生成偏好之间的错配,即文档相关性排序往往无法直接优化最终生成答案的质量。通过整合多个开源语料库并引入多样化的生成器,PRISM为训练生成器感知的排序模型提供了统一的监督信号,显著推动了RAG系统在证据合成与跨生成器鲁棒性方面的前沿探索。
当前挑战
PRISM数据集致力于解决RAG领域中证据选择与排序的挑战,其核心在于如何使文档排序决策与下游生成答案的质量对齐,而非仅仅优化查询与文档的相关性。构建过程中的主要挑战包括:首先,需要从异构的开源问答数据集中统一构建高质量的双语查询-文档对,并确保正负样本的平衡与多样性;其次,建模不同生成器对文档子集及其排列顺序的差异化偏好是一项复杂任务,要求设计自动化的响应质量评估与偏好对齐流程;此外,数据集还需涵盖多跳推理、时序问答等多种复杂场景,以全面评估排序模型在真实RAG任务中的泛化能力。
常用场景
经典使用场景
在检索增强生成(RAG)研究领域,PRISM数据集为探索生成器感知的文档排序机制提供了关键支撑。该数据集通过整合多个开源语料库与多样化的下游生成器,构建了以响应质量为对齐目标的偏好标注数据。其最经典的使用场景在于训练和评估如Rank4Gen等排序模型,这些模型旨在超越传统的查询-文档相关性排序,转而根据生成器的具体偏好与证据利用模式,为RAG系统选择和排序最优的文档子集,从而直接优化最终生成响应的质量。
解决学术问题
PRISM数据集主要解决了RAG系统中排序目标与生成目标错配的核心学术问题。传统排序模型仅优化查询与文档的相关性,但高度相关的文档未必能有效支持生成器合成高质量答案。PRISM通过引入“从排序相关性到响应质量”与“生成器特定偏好建模”两大策略,将排序决策与下游生成质量直接对齐。这为研究如何建模不同生成器在证据选择、组合与排序上的异质性偏好提供了数据基础,推动了RAG排序范式从生成器无关向生成器感知的转变,提升了排序改进对最终回答质量的传导效率。
衍生相关工作
PRISM数据集的构建理念与方法,启发并支撑了一系列围绕生成器感知RAG排序的后续研究。其直接衍生的经典工作即论文中提出的Rank4Gen框架,该框架利用PRISM进行监督微调与直接偏好优化,实现了单一排序器对多种生成器的条件化适配。此外,PRISM所强调的“集合选择”排序范式,以及通过响应质量对齐和生成器ID条件化来建模偏好的思路,为后续研究如何设计更高效的跨生成器泛化排序器、如何利用偏好学习优化RAG中的证据合成,以及如何构建更大规模的多语言、多领域偏好对齐数据集,提供了重要的方法论参考与基准数据。
以上内容由遇见数据集搜集并总结生成



