saketmgnt/context-coherence-bench

Name: saketmgnt/context-coherence-bench
Creator: saketmgnt
Published: 2026-04-25 13:44:31
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/saketmgnt/context-coherence-bench

下载链接

链接失效反馈

官方服务：

资源简介：

ContextCoherenceBench是一个基准测试集，用于评估检索增强生成中的上下文一致性。它包含两种主要配置：一种是adversarial_*，包含4个子集（drift、disjoint、contradict和control），分别针对不同类型的上下文不一致性问题；另一种是coherence_paradox，包含多个数据集、生成器和检索条件下的记录，包括忠实度分数、幻觉标签、检索相似性、细化决策和上下文一致性分数（CCS）。该数据集旨在帮助研究检索增强生成中的上下文一致性问题。

ContextCoherenceBench is a benchmark for evaluating context coherence in retrieval-augmented generation. It includes two main configurations: adversarial_* with 4 subsets (drift, disjoint, contradict, and control) targeting different types of context coherence issues, and coherence_paradox containing per-query records across multiple datasets, generators, and retrieval conditions with faithfulness scores, hallucination labels, retrieval similarity, refinement decisions, and Context Coherence Score (CCS). The dataset is designed to study context coherence in retrieval-augmented generation.

提供机构：

saketmgnt

搜集汇总

数据集介绍

构建方式

上下文连贯性基准（ContextCoherenceBench）乃是为评估检索增强生成系统中上下文连贯性对忠实度的影响而精心构筑。其构建方式匠心独运，一方面精心设计了对抗性连贯性对，涵盖漂移、脱节、矛盾及控制四大类别，经由人工验证确保其有效性；另一方面，则系统性收集了跨五个数据集、结合三个生成器与三种检索条件的逐查询记录，从而形成一套多层次、多维度的评估架构。

使用方法

使用者可通过HuggingFace的datasets库便捷加载数据集，指定配置名如'adversarial_drift'或'coherence_paradox'即可获取相应子集。该数据集适用于问答与文本分类任务，尤其适合用于检索增强生成系统中的幻觉检测研究，可借助其精确标注的数据开展上下文连贯性量化分析、干预策略有效性验证及模型忠实度评估等实验。

背景与挑战

背景概述

ContextCoherenceBench数据集由研究者Saket Maganti于2026年创建，并作为NeurIPS 2026投稿论文《When Better Retrieval Hurts: Context Coherence Drives Faithfulness in Retrieval-Augmented Generation》的配套基准。该数据集聚焦于检索增强生成（RAG）系统中的上下文连贯性评估，核心研究问题在于探索检索到的信息质量如何影响生成内容的忠实度。通过包含对抗性漂移、不相干子集群、内部矛盾等精心设计的案例，以及覆盖5个数据集、3种生成器和3种检索条件的连贯性悖论记录，该数据集为理解RAG系统中“更优的检索反而损害生成质量”这一反直觉现象提供了关键实验基础。其影响力体现在为幻觉检测与上下文连贯性研究提供了标准化评估工具，推动了RAG系统可靠性的学术讨论。

当前挑战

该数据集所针对的领域挑战在于，现有RAG系统常因检索到的上下文缺乏连贯性而导致生成内容出现事实性错误或逻辑断裂，这一问题在复杂多文档检索场景中尤为突出。当前挑战包括：1) 如何在稀疏或矛盾的信息源中有效区分连贯与不连贯的上下文，避免模型因检索到看似相关但实质上分散或冲突的内容而产生幻觉；2) 构建过程中克服了人工标注的可靠性难题，通过NLI验证器对对抗性案例进行严格筛选，确保129个有效案例的真实性与代表性；3) 跨数据集、跨生成器的评估设计面临计算成本与实验复现的权衡，需标准化不同条件下连贯性评分（CCS）的测量一致性。

常用场景

经典使用场景

在检索增强生成（RAG）技术蓬勃发展的当下，ContextCoherenceBench 数据集为评估检索上下文的连贯性提供了系统化的基准平台。其经典使用场景聚焦于两个核心任务：一是通过 adversarial_drift、adversarial_disjoint 与 adversarial_contradict 等精心构建的手工验证对抗样本，对模型在主题漂移、信息断裂、内部矛盾等复杂条件下的鲁棒性进行精确测试；二是借助 coherence_paradox 配置，系统记录同一查询在不同数据集、生成器与检索策略下的连贯性得分与忠实度表现。这些设计使研究人员能够量化上下文连贯性对生成忠实度的影响，从而推动 RAG 系统从简单的检索精准度导向，向更关注检索结果内部质量与关系一致性的方向演进。

解决学术问题

长期以来，检索增强生成领域面临一个关键矛盾：提升检索精度并不总能增强生成忠实度，反而可能因引入不连贯的上下文导致幻觉加剧。ContextCoherenceBench 直接回应了这一“提升检索反而有害”的悖论，通过设计 adversarial_* 系列对抗样本，系统化揭示了连贯性缺失的三种典型模式——信息漂移、信息孤岛与内部矛盾，为理解该类问题提供了结构化研究工具。数据集进一步通过 coherence_paradox 配置，在大规模跨数据集实验中验证了上下文连贯性与生成忠实度之间的正向关联，为学术界提供了可重复、可量化的评估框架，推动了关于 RAG 系统忠实度机制的理论探讨与实验验证。

实际应用

在实际产业应用中，ContextCoherenceBench 所定义的评估标准具有显著指导价值。对于构建企业级知识问答系统、智能客服与自动化文档摘要等产品，该基准能够有效检测检索结果中潜在的信息冲突与逻辑断裂，提示系统在生成前对上下文进行一致性审查。基于该数据集，开发者可以部署上下文连贯性评分器（CCS）作为检索后处理器，自动剔除或修正低质量检索片段，从而显著降低幻觉风险。此外，在医疗、法律等对信息一致性要求极高的领域，该基准可辅助验证 RAG 管线的输出可靠性，确保关键决策所依赖的上下文信息保持内在融洽与主题聚焦，提升系统的可信度与用户信任感。

数据集最近研究