CUB (Context Utilisation Benchmark)
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/copenlu/cub-counterfact, https://huggingface.co/datasets/copenlu/cub-nq, https://huggingface.co/datasets/copenlu/cub-druid
下载链接
链接失效反馈官方服务:
资源简介:
CUB是一个用于评估和比较语境利用操纵技术(CMTs)的基准数据集。它包含三个不同的数据集:CounterFact、NQ和DRUID,分别代表不同的任务难度、真实和合成的RAG场景。CUB旨在帮助研究人员在检索增强生成(RAG)中识别最佳的CMT,以解决语言模型在处理外部知识时的挑战。数据集的创建过程包括对现有数据集的采样和合成,以确保数据集的多样性和代表性。CUB的应用领域是评估CMTs在不同语境类型下的性能,旨在解决语言模型在处理外部知识时的不足。
CUB is a benchmark dataset for evaluating and comparing Context Manipulation Techniques (CMTs). It includes three distinct datasets: CounterFact, NQ, and DRUID, which respectively represent real-world and synthetic RAG scenarios with varying task difficulties. CUB aims to assist researchers in identifying the optimal CMTs for Retrieval-Augmented Generation (RAG) to address the challenges faced by language models when processing external knowledge. The dataset creation process involves sampling and synthesizing existing datasets to ensure its diversity and representativeness. The application scope of CUB is to evaluate the performance of CMTs across different context types, with the goal of mitigating the limitations of language models when handling external knowledge.
提供机构:
哥德堡大学
创建时间:
2025-05-22
原始信息汇总
DRUID数据集概述
数据集详情
- 许可证: MIT
- 语言: 英语 (en)
- 数据集名称: DRUID
- 来源: 基于Hagström et al. (2024)的DRUID数据集版本
- 样本数量: 4,500个DRUID条目,包含"true target"(事实核查结果)和"new target"(上下文立场)
数据集结构
- 配置:
gpt2-xlpythia-6.9bqwen-1.5bqwen-1.5b-instructqwen-7bqwen-7b-instructqwen-32bqwen-32b-instructcohere-command-a
- 数据文件:
- 每个配置包含
validation和test分割
- 每个配置包含
- 任务类别: 问答、文本生成
- 规模类别: 1K<n<10K
数据列说明
跨数据集版本相同的列:
id: 样本ID,与原始DRUID ID匹配context_type: 上下文类型("gold"、"edited"或"irrelevant")template: 用于生成提示的模板template_w_context: 包含上下文的提示模板target_true: 正确答案(基于原始事实核查结果," True"、" Half true"或" False")target_new: 根据上下文的正确答案(None、" None"、" False"或" True")prompt: 不含上下文的提示prompt_w_context: 包含上下文的提示claim: 样本声明claimant: 声明者evidence: 证据(上下文)relevant: 证据是否相关
依赖数据集版本的列(模型相关):
pred: 模型对提示的top-1预测pred_w_context: 模型对包含上下文的提示的top-1预测pred_prob:pred的模型概率pred_prob_w_context:pred_w_context的模型概率context_token_prob: 上下文token(target_new)的模型概率context_token_prob_w_context: 包含上下文的提示中上下文token的模型概率true_token_prob: 真实token(target_true)的模型概率true_token_prob_w_context: 包含上下文的提示中真实token的模型概率memory_token_prob_w_context: 包含上下文的提示中记忆token(pred)的模型概率
数据集创建过程
- 从copenlu/druid下载5,490个DRUID样本
- 保留具有适当事实核查结果的样本("True"、"False"或"Half true")
- 将证据立场映射到target_new
- 根据上下文与查询的相关性及与原始事实核查结果的一致性,将上下文分类为"gold"、"edited"或"irrelevant"
- 使用2-shot提示模板创建含和不含上下文的提示
- 收集数据样本的相应模型预测
- 将数据集分割为验证集和测试集(验证集包含200个样本,上下文类型均匀分布)
搜集汇总
数据集介绍

构建方式
CUB(Context Utilisation Benchmark)数据集的构建采用了多维度系统化方法,通过整合CounterFact、NQ和DRUID三个核心数据集形成评估矩阵。针对知识冲突、无关信息干扰等核心挑战,研究团队设计了三种上下文类型(标准、冲突、无关)的样本:在CounterFact中通过LAMA事实三元组构建对抗性样本,NQ采用Wikipedia段落替换法生成冲突语境,DRUID则直接利用其天然标注的证据立场分类。数据划分上严格遵循开发集调参、测试集评估的原则,并创新性地引入Jina Reranker v2进行无关上下文的精准筛选,确保样本质量与真实检索场景的高度吻合。
使用方法
使用CUB需遵循标准化评估协议:首先基于开发集对CMTs进行超参数优化(如PH3的注意力头配置、COIECD的λ/α参数),随后在测试集测量BCU/CCU分数。评估时应区分三种上下文类型独立分析,特别注意模型在冲突语境与无关语境中的表现差异。对于多智能体等复合方法,需逐步验证相关性判断(阶段1)、上下文忠实度(阶段2)和自我修正(阶段3)的中间结果。建议配合特征相关性分析(如模型规模与黄金语境利用的Spearman系数ρ=0.36),深入诊断技术优劣。所有实验需控制提示模板一致性,指令微调模型需采用专用聊天模板。
背景与挑战
背景概述
CUB (Context Utilisation Benchmark) 是由Lovisa Hagström、Youna Kim、Haeun Yu等研究人员于2025年提出的一个基准测试,旨在评估语言模型在检索增强生成(RAG)任务中利用上下文信息的能力。该数据集由多个机构合作开发,包括查尔姆斯理工大学、首尔国立大学和哥本哈根大学等。CUB的核心研究问题是解决语言模型在处理外部知识时可能忽略相关信息或被无关信息干扰的问题。该数据集通过系统性地测试不同上下文类型(如黄金上下文、冲突上下文和无关上下文)下的模型表现,为RAG领域的研究提供了重要的评估工具。
当前挑战
CUB数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:语言模型在处理不同类型的上下文时表现不稳定,尤其是在面对冲突或无关信息时容易产生错误。例如,模型可能过于依赖内部参数记忆而忽略外部上下文,或者被无关信息分散注意力。2) 构建过程中的挑战:数据集需要平衡合成数据与现实数据的比例,确保评估场景的多样性;同时,精确标注不同类型的上下文(如冲突上下文)需要复杂的采样和验证流程,以确保数据质量。此外,评估不同上下文利用技术(CMTs)在不同模型和任务上的表现也增加了数据集的复杂性。
常用场景
经典使用场景
CUB(Context Utilisation Benchmark)数据集在自然语言处理领域中被广泛用于评估语言模型在检索增强生成(RAG)任务中的上下文利用能力。该数据集通过提供三种不同类型的上下文(黄金上下文、冲突上下文和无关上下文),帮助研究者测试模型在不同情境下的表现。经典使用场景包括测试模型在问答、事实核查等知识密集型任务中如何有效利用或忽略外部信息。
解决学术问题
CUB数据集解决了语言模型在RAG任务中常见的几个学术问题,包括模型如何应对与其内部记忆相冲突的外部信息、如何过滤无关上下文以及如何有效利用相关上下文。这些问题在实际应用中至关重要,因为它们直接影响到模型的准确性和可靠性。通过提供多样化的上下文类型,CUB为研究者提供了一个系统化的评估框架,帮助识别和解决模型在上下文利用中的弱点。
实际应用
在实际应用中,CUB数据集可用于优化搜索引擎、智能助手和自动化事实核查系统。例如,在搜索引擎中,模型需要从大量检索到的信息中筛选出最相关的内容,并忽略无关或冲突的信息。CUB的评估结果可以帮助开发者选择最适合的上下文利用技术(CMT),从而提高系统的整体性能和用户体验。
数据集最近研究
最新研究方向
近年来,CUB(Context Utilisation Benchmark)数据集在自然语言处理领域引起了广泛关注,特别是在检索增强生成(RAG)任务中。该数据集的最新研究方向主要集中在评估和比较不同的上下文利用操作技术(CMTs),以提高语言模型在知识密集型任务中的表现。CUB通过系统测试模型对三种上下文类型(黄金、冲突和无关)的敏感性,为研究人员提供了一个全面的评估框架。当前的研究热点包括开发能够同时处理多种上下文类型的CMTs,以及探索模型在不同数据集(如CounterFact、NQ和DRUID)上的表现差异。这些研究不仅推动了RAG系统的发展,还为解决语言模型在现实场景中的上下文利用问题提供了重要参考。
相关研究论文
- 1CUB: Benchmarking Context Utilisation Techniques for Language Models哥德堡大学 · 2025年
以上内容由遇见数据集搜集并总结生成



