cmt-benchmark-druid

Hugging Face2025-04-02 更新2025-04-03 收录

下载链接：

https://huggingface.co/datasets/copenlu/cmt-benchmark-druid

下载链接

链接失效反馈

官方服务：

资源简介：

DRUID 数据集是 cmt-benchmark 项目的一部分，基于 Hagström 等人（2024年）的 DRUID 数据集。这个版本的数据集从 DRUID 数据集中抽取了 4500 条记录，每条记录都包含一个“真实目标”（事实核查裁决）和一个“新目标”（上下文的立场）。数据集分为两个版本：gpt2-xl 和 pythia-6.9b，每个版本都有相应的验证集（200个样本）和测试集（剩余样本）。数据集包含多个列，其中一些列在所有版本中保持一致，如样本 id、上下文类型、模板、正确答案等，而其他列则依赖于数据集的版本，如模型预测结果和概率等。数据集的创建过程包括下载 DRUID 样本、筛选具有足够事实核查裁决的样本、将证据立场映射到新目标、分类上下文类型、使用模板创建提示以及收集模型预测结果。

创建时间：

2025-03-20

原始信息汇总

DRUID 数据集概述

数据集基本信息

许可证: MIT
语言: 英语 (en)
数据集名称: DRUID
所属项目: cmt-benchmark
数据规模: 1K < n < 10K
任务类别: 问答、文本生成

数据集详情

来源: 基于 Hagström et al. (2024) 的 DRUID 数据集版本。
样本数量: 4,500 条 DRUID 条目，包含“真实目标”（事实核查裁决）和“新目标”（上下文的立场）。

数据集结构

配置版本:
- gpt2-xl
  - 验证集: 200 样本 (gpt2_xl_dev.jsonl)
  - 测试集: 剩余样本 (gpt2_xl_test.jsonl)
- pythia-6.9b
  - 验证集: 200 样本 (pythia_6_9b_dev.jsonl)
  - 测试集: 剩余样本 (pythia_6_9b_test.jsonl)

通用字段（所有版本相同）

id: 样本 ID，与原始 DRUID ID 匹配。
context_type: 上下文类型（"gold"、"edited" 或 "irrelevant"）。
template: 用于生成提示的模板。
template_w_context: 包含上下文的提示模板。
target_true: 正确答案（基于事实核查裁决），可能为 " True"、" Half true" 或 " False"。
target_new: 根据上下文的正确答案，可能为 None、" None"、" False" 或 " True"。
prompt: 不含上下文的提示。
prompt_w_context: 包含上下文的提示。
claim: 样本中的声明。
claimant: 声明者。
evidence: 证据（上下文）。
relevant: 证据是否与声明相关。

版本依赖字段（模型相关）

pred: 模型对提示的 top-1 预测（第一标记）。
pred_w_context: 模型对含上下文提示的 top-1 预测。
pred_prob: 预测标记的概率（softmaxed logits）。
pred_prob_w_context: 含上下文预测标记的概率。
context_token_prob: 上下文标记（target_new）的概率。
context_token_prob_w_context: 含上下文的上下文标记概率。
true_token_prob: 真实标记（target_true）的概率。
true_token_prob_w_context: 含上下文的真实标记概率。
memory_token_prob_w_context: 含上下文的记忆标记（pred）概率。

数据集创建流程

从 copenlu/druid 下载 5,490 个 DRUID 样本。
保留具有有效事实核查裁决的样本（"True"、"False" 或 "Half true"）。
将证据立场映射到 target_new:
- insufficient-* → " None"
- supports → " True"
- refutes → " False"
- not_applicable → None
根据上下文相关性分类为 "gold"、"edited" 或 "irrelevant"。
使用 2-shot 提示模板生成含/不含上下文的提示。
收集模型预测数据。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，DRUID数据集作为事实核查任务的重要基准，其构建过程体现了严谨的学术规范。研究团队从原始DRUID样本中筛选出4,500条具有明确事实核查结论的条目，通过精细的标注流程将证据立场映射为标准化标签。数据预处理阶段保留了'True'、'False'和'Half true'三类有效结论，并依据上下文相关性将证据分类为'gold'、'edited'和'irrelevant'三种类型。采用两样本提示模板生成带上下文与不带上下文的提示文本，最终集成GPT-2 XL和Pythia-6.9B两种大语言模型的预测结果，形成具有对比研究价值的双版本数据集结构。

特点

该数据集最显著的特征在于其双重验证体系设计，同时包含基于原始事实核查结论的'target_true'和基于上下文立场的'target_new'标注。数据样本涵盖三种上下文类型和七种证据立场，为研究上下文相关性对模型推理的影响提供了丰富维度。每个样本配套存储了模型预测的概率分布数据，包括对上下文支持标记、真实标记以及记忆标记的详细概率记录，这种细粒度的模型行为分析数据在现有数据集中较为罕见。数据集采用标准化JSONL格式存储，验证集和测试集经过科学划分，确保研究结果的可比性和可复现性。

使用方法

研究者可通过HuggingFace平台直接加载'gpt2-xl'或'pythia-6.9b'配置下的数据集版本，每个版本包含验证集和测试集两部分。使用时应重点关注'target_true'与'target_new'的差异分析，这为探究大语言模型在事实核查任务中受上下文影响的程度提供了关键指标。模型概率相关字段如'context_token_prob'和'true_token_prob'可用于深入分析模型的决策机制，而'prompt'与'prompt_w_context'的对比则能评估上下文提示的有效性。建议结合'context_type'字段进行分层实验设计，以系统研究不同上下文类型对模型性能的影响。

背景与挑战

背景概述

DRUID数据集由Hagström等人于2024年提出，作为cmt-benchmark项目的重要组成部分，旨在探索语言模型在事实核查任务中的表现。该数据集基于原始DRUID样本构建，精选了4,500条具有明确事实核查结论（'true target'）和上下文立场（'new target'）的条目，涵盖了真实、半真实和虚假三类标签。通过整合GPT-2-xl和Pythia-6.9b等主流模型的预测结果，该数据集为研究上下文信息对模型推理能力的影响提供了标准化评估框架，推动了可解释性人工智能在信息验证领域的发展。

当前挑战

DRUID数据集面临的挑战主要体现在两方面：在领域问题层面，如何准确量化上下文相关性对模型判断的干扰效应，成为验证语言模型鲁棒性的关键难点，尤其当证据存在'部分支持'或'矛盾'等模糊情况时，模型易产生认知偏差；在构建技术层面，数据清洗过程中需平衡样本多样性（如'gold'、'edited'、'irrelevant'三类上下文）与标签一致性，而跨模型预测结果的标准化对齐也增加了数据处理的复杂度。此外，两阶段提示模板的设计既要保持任务适应性，又需避免引入人为偏见，这对评估范式的科学性提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，DRUID数据集为研究者提供了一个评估模型在事实核查任务中表现的标准平台。该数据集通过精心设计的提示模板和上下文信息，模拟了真实世界中模型需要判断声明真实性的场景。数据集中的每个样本都包含了声明、声明者、证据以及对应的真实标签和新标签，这使得研究者能够系统地测试模型在不同上下文条件下的推理能力。

解决学术问题

DRUID数据集有效地解决了自然语言处理中模型鲁棒性评估的关键问题。通过提供带有不同相关性上下文的样本，该数据集能够帮助研究者分析模型在面对误导性信息时的表现。数据集特别关注模型在接收到与事实核查结果相矛盾的证据时的行为，这对于理解模型是否真正理解语义而非简单模式匹配具有重要意义。

衍生相关工作

围绕DRUID数据集已产生多项重要研究。Hagström等人的开创性工作建立了评估模型上下文敏感性的基本框架，后续研究则进一步探索了不同架构模型在该数据集上的表现差异。这些工作不仅推动了事实核查领域的发展，也为理解大型语言模型的推理机制提供了新的视角。数据集的多版本设计（如gpt2-xl和pythia-6.9b）更促进了模型对比研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集