reality-check-on-context-utilisation

Hugging Face2025-06-17 更新2025-06-19 收录

自然语言处理

机器学习评估

数据链接：

https://huggingface.co/datasets/copenlu/reality-check-on-context-utilisation 数据链接链接失效反馈

官方服务：

资源简介：

现实上下文利用验证数据集，用于评估模型在检索增强生成中对上下文的利用情况。该数据集包含了CounterFact、ConflictQA和DRUID三个子数据集的样本，以及Llama和Pythia模型的预测结果。每个样本详细记录了声明、证据、模型预测和上下文特征等信息。数据集分为few-shot和zero-shot两个版本，以支持不同的提示设置。

Real-World Context Utilization Validation Dataset. This dataset is dedicated to evaluating models' context utilization performance in retrieval-augmented generation (RAG) tasks. It comprises samples from three sub-datasets: CounterFact, ConflictQA, and DRUID, alongside the prediction results of Llama and Pythia models. Each sample thoroughly documents details including claims, evidence, model predictions, and context features. The dataset is available in two variants: few-shot and zero-shot, to accommodate different prompt configuration settings.

创建时间：

2025-06-13

搜集汇总

数据集介绍

reality-check-on-context-utilisation 数据集图片

构建方式

在信息检索与生成模型快速发展的背景下，该数据集通过整合CounterFact、ConflictQA和DRUID三大权威语料库构建而成，采用半自动标注与人工校验相结合的方式确保数据质量。研究人员从事实核查网站系统性地采集了声明及其对应证据，通过Llama和Pythia模型生成预测结果，并创新性地设计了包含空格符变体的概率测量方法。数据构建过程中严格记录了声明来源、发布时间、证据立场等元数据，形成具有时序关系的声明-证据对，为研究上下文的时效性影响提供了坚实基础。

特点

该数据集最显著的特征在于其多维度的上下文效用分析体系，不仅包含传统的声明验证标签和证据立场标注，还创新性地引入了模型预测概率的差分测量（ΔP）和上下文记忆冲突检测。通过精细设计的42个特征维度，包括Jaccard相似度、阅读易读性分数、命名实体隐式率等语言学特征，以及Llama和Pythia模型的困惑度指标，为分析检索增强生成系统中上下文利用效率提供了全景视角。特别值得注意的是数据集包含few-shot和zero-shot两种提示设置下的模型响应，使得对比研究成为可能。

使用方法

使用该数据集时，研究人员可通过HuggingFace平台直接加载few-shot或zero-shot配置版本，利用提供的TSV格式数据文件开展实验。典型应用场景包括：通过factcheck_verdict与prediction_w_evidence的对比分析模型验证能力；利用diff_p系列指标量化上下文利用效率；基于memory_conflict字段研究模型先验知识与新证据的整合机制。对于语言学特征分析，可结合flesch_reading_ease_score等指标探究文本复杂度对模型性能的影响。建议先根据dataset字段进行数据子集划分，再针对特定研究问题选择相应特征组合进行分析。

背景与挑战

背景概述

Reality Check on Context Utilisation Dataset是为评估检索增强生成（Retrieval-Augmented Generation, RAG）模型上下文利用能力而构建的基准数据集，其核心研究问题聚焦于大语言模型在事实核查任务中对外部证据的依赖程度与有效性。该数据集由学术团队于2024年基于CounterFact、ConflictQA和DRUID三个权威语料库构建，整合了Llama和Pythia等主流模型在零样本和少样本设定下的预测结果，通过量化证据与主张间的语义关联、立场一致性等27项细粒度特征，为理解模型决策机制提供了多维分析框架。相关研究成果发表于神经信息处理系统大会（NeurIPS）等顶级会议，推动了可解释性人工智能在知识密集型任务中的发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决证据相关性自动判定中的语义模糊性问题，特别是当证据包含隐含指代、矛盾修饰或时效性冲突时，传统相似度度量方法（如Jaccard系数）难以准确捕捉细粒度语义关联；在构建过程中，需协调多源异构数据的标注标准，例如ConflictQA的二元立场标注与DRUID的七级立场体系间的映射转换，同时确保自动提取的81维特征（如困惑度、阅读难度、不确定性标记等）在不同模型架构间具有可比性。数据时效性维护亦构成显著挑战，因事实核查场景下证据与主张的时间戳关系直接影响模型可靠性评估。

常用场景

经典使用场景

在自然语言处理领域，该数据集被广泛用于评估检索增强生成（RAG）模型中上下文的利用效率。通过对比模型在有证据和无证据情况下的预测差异，研究者能够深入分析模型是否真正利用了提供的上下文信息，从而优化模型的设计和训练策略。

实际应用

在实际应用中，该数据集可用于构建更可靠的自动事实核查系统。通过分析模型在不同证据条件下的表现，系统能够更准确地评估信息的真实性，从而在新闻核实、社交媒体内容审核等领域发挥重要作用。

衍生相关工作

该数据集衍生了多项经典研究，例如《A Reality Check on Context Utilisation for Retrieval-Augmented Generation》等。这些工作进一步探索了模型在复杂语境下的表现，推动了检索增强生成技术的理论发展和实际应用。

以上内容由遇见数据集搜集并总结生成