five

CONFLICTS

收藏
arXiv2025-12-19 更新2025-12-20 收录
下载链接:
https://github.com/ShubhamX90/reasoning-in-rag
下载链接
链接失效反馈
官方服务:
资源简介:
CONFLICTS数据集由比拉技术与科学学院和卡内基梅隆大学联合构建,旨在评估检索增强模型在异构和矛盾证据下的表现。该数据集包含539条查询-文档组,每条数据整合了来自ConflictingQA、SituatedQA等多源开放域QA问题,平均每查询关联9篇文档,涵盖新闻、学术和百科全书等领域的冲突类型标注(如无冲突、互补信息、过时信息等)。数据集通过三阶段标注流程(微观判断、宏观冲突分类、响应合成)强化结构化推理监督,并采用标准化JSONL格式存储。其核心应用是提升检索增强生成系统在证据冲突场景下的可解释性、事实鲁棒性及行为一致性。
提供机构:
比拉技术与科学学院, 皮拉尼; 卡内基梅隆大学, 匹兹堡
创建时间:
2025-12-19
搜集汇总
数据集介绍
main_image_url
构建方式
在检索增强生成领域,面对多源证据冲突的挑战,CONFLICTS数据集通过结构化标注流程构建而成。该数据集以Cattan等人提出的CONFLICTS基准为基础,整合了来自ConflictingQA、SituatedQA等多个开放域问答源头的查询与文档。构建过程采用三阶段推理标注框架:首先在微观层面为每个检索文档生成支持度判决、关键事实与理由;随后在宏观层面聚合分析,依据既定冲突分类学推断整体冲突类型;最终基于前序推理,合成带有引用的答案或合理拒答。所有推理步骤均序列化为XML式思维轨迹,确保了数据集的透明性与可解释性。
特点
CONFLICTS数据集的核心特点在于其深度融合了冲突感知与结构化推理监督。该数据集包含539个查询实例,每个实例均附有文档级判决、冲突类型标签以及分阶段的思维轨迹,为模型提供了从证据评估到冲突解决的完整推理范式。其冲突分类体系涵盖了无冲突、互补信息、观点或研究结果冲突、信息过时以及错误信息五种类型,并定义了每种类型下模型应有的行为规范。数据集通过严格的证据锚定与来源可信度标注,强调了答案的忠实性与可验证性,为训练和评估检索增强语言模型在复杂、矛盾证据环境下的推理能力提供了高质量、细粒度的监督信号。
使用方法
该数据集主要用于训练和评估检索增强语言模型在冲突证据下的推理与生成能力。研究人员可利用其进行监督微调,教导模型遵循结构化思维轨迹,生成冲突感知的、带有引用的回答或合理拒答。评估时,可采用端到端或先知两种设置:端到端设置要求模型根据检索文档自行推断冲突类型并生成响应;先知设置则为模型提供黄金冲突标签,作为性能上限参考。配套的冲突感知信任评分(CATS)评估管线,从答案正确性、引用忠实性、拒答准确性和行为一致性四个维度,为模型在冲突场景下的综合表现提供了全面的量化衡量标准。
背景与挑战
背景概述
CONFLICTS数据集于2025年由Cattan等人提出,旨在系统评估检索增强生成(RAG)模型在面临证据冲突时的推理能力。该数据集构建于多个开放域问答基准之上,包含458个查询-文档组,每个组均标注了特定的知识冲突类型,如信息过时、观点对立或互补信息等。其核心研究问题聚焦于如何使大型语言模型在检索到矛盾或异构证据时,仍能进行可解释、可追溯的推理,并生成符合冲突类型预期的回应。该数据集为开发具有冲突感知能力的RAG系统提供了关键的训练与评估基础,推动了检索增强生成在可靠性、可解释性方向的发展。
当前挑战
CONFLICTS数据集致力于解决检索增强生成中证据冲突处理的根本挑战,即模型需在相互矛盾、过时或主观的信息流中进行可靠推理与综合。具体构建挑战包括:首先,冲突类型的精细标注需依赖人工判断,在证据解读与行为期望映射上存在主观性风险;其次,为生成可解释的推理轨迹,需设计复杂的三阶段标注流程(微观判断、宏观冲突分析、综合生成),对标注的一致性与逻辑连贯性要求极高;再者,数据集成来自多源,需进行时间戳标准化、来源可信度分类等预处理,以确保冲突检测的准确性。这些挑战共同指向了构建高质量、可泛化冲突基准的复杂性。
常用场景
经典使用场景
在检索增强生成(RAG)系统中,CONFLICTS数据集被广泛应用于评估和训练大语言模型处理冲突证据的能力。该数据集通过精心构建的查询-文档对,模拟了现实世界中信息冲突的多种场景,如过时信息、矛盾观点或互补性内容。研究者在开发冲突感知的RAG框架时,常利用此数据集进行模型微调与性能验证,确保系统在面临证据不一致时仍能生成可靠且可解释的回应。
实际应用
在实际应用中,CONFLICTS数据集支撑了智能问答系统、事实核查工具及学术研究辅助平台的开发。例如,在新闻摘要或医疗信息检索场景中,系统可借助该数据集训练的模型,自动识别并调和来源间的矛盾,优先采纳最新或高可信度证据,最终输出带有明确引用的综合答案或合理的拒绝回应。这种能力显著提升了信息服务的准确性与用户信任度。
衍生相关工作
围绕CONFLICTS数据集,已衍生出多项经典研究工作。例如,ConflictBank与WikiContradict等基准进一步扩展了冲突检测与评估的范畴;Chain-of-Note方法引入了文档级结构化笔记以增强多跳推理;而CATS评估框架则融合了行为对齐指标,形成了更全面的信任度度量体系。这些工作共同推动了冲突感知RAG系统在推理透明性与事实鲁棒性方面的持续进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作