AVeriTeC

arXiv2025-09-30 收录

下载链接：

https://fever.ai/dataset/averitec.html

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集被用于评估在自动事实核查中真实性预测和解释生成的效果。此外，它还用于比较模型在真实性预测和生成解释方面的性能表现。该数据集对应的任务是事实核实以及解释生成。

This dataset is employed to assess the efficacy of veracity prediction and explanation generation within the framework of automated fact-checking. Additionally, it can be utilized to compare the model performance on both veracity prediction and explanation generation tasks. The tasks associated with this dataset are fact verification and explanation generation.

搜集汇总

数据集介绍

构建方式

AVeriTeC数据集的构建源于对现有自动事实核查数据集局限性的深刻反思。研究团队从50家事实核查机构中提取了4,568条真实世界的声明，通过多轮人工标注流程，确保每条声明都附带基于在线证据的问答对，以及解释证据如何综合形成裁决的文本说明。构建过程首先对原始声明进行规范化处理，消除上下文依赖；随后生成问答对并由不同标注者进行证据充分性检验；最后通过时间顺序划分训练、验证和测试集，有效避免了证据时间泄露问题。

特点

该数据集的核心特色在于其高度真实性与结构化推理的融合。所有声明均源自专业事实核查机构，而非人工合成，确保了任务的真实挑战性。通过问答对的形式，数据集将复杂的核查过程分解为可追溯的推理步骤，每个答案均附有来源链接。此外，数据集引入了“冲突证据/选择性引用”这一第四类标签，精准捕捉了现实世界中证据相互矛盾或断章取义的情况。标注者间裁决一致性达到了κ=0.619的显著水平，验证了标注质量的可靠性。

使用方法

AVeriTeC的使用方法围绕开放网络证据检索与结构化验证展开。模型首先需根据声明生成搜索问题，通过Google Search等引擎检索相关网页；随后利用BM25排序和微调的BERT模型筛选关键证据句子，并生成对应的问答对。最终，基于立场检测模型对问答对的支持、反驳或无关性进行分类，从而得出裁决。评估采用匈牙利METEOR算法，对生成的问答对与参考答案进行近似匹配，并设定阈值λ=0.25作为证据充分性的评判标准，确保评价的灵活性与公平性。

背景与挑战

背景概述

在自动事实核查领域，现有数据集普遍存在依赖人工合成声明、缺乏证据标注与中间推理过程、或包含事后证据等显著局限。为填补这一空白，剑桥大学计算机科学与技术系的Michael Schlichtkrull、Zhijiang Guo与Andreas Vlachos于2023年推出了AVeriTeC数据集。该数据集汇集了来自50家事实核查机构的4568条真实世界声明，每条声明均配有基于在线证据的问答对以及解释证据如何导向裁决的文本理由。通过多轮标注流程，研究团队有效规避了上下文依赖、证据不足与时间泄漏等常见问题，并达到了κ=0.619的实质性标注者间一致性，为自动事实核查领域树立了新的基准。

当前挑战

AVeriTeC数据集所面临的挑战涵盖领域问题与构建过程两个维度。在领域问题层面，自动事实核查需应对真实世界声明普遍存在的上下文依赖性，即声明脱离原始核查文章后难以独立验证；同时需克服证据不足问题，确保标注证据足以支撑裁决，而非依赖对声明者的假定；此外还需防范时间泄漏，即避免使用声明发布之后才出现的证据。在构建过程中，挑战包括：从8000篇事实核查文章中筛选并标准化声明，确保其脱离原文仍可理解；通过多轮问答生成与证据充分性检查实现高质量标注，并在两轮标注者裁决不一致时启动再标注直至达成共识或丢弃声明；同时需限制搜索引擎仅返回声明日期前的文档，以近似保证时间无泄漏。

常用场景

经典使用场景

在自动化事实核查领域，AVeriTeC数据集以其对真实世界声明的深度标注而独树一帜。该数据集涵盖了来自50个不同核查组织的4568条真实声明，每一条都配备了问答对形式的证据分解与文本化推理说明。其经典使用场景在于构建端到端的声明验证系统，通过将复杂声明拆解为可检索的子问题，模拟人类核查员的推理链条，从而在开放网络环境中实现证据驱动的自动化判断。

实际应用

在实际应用中，AVeriTeC被设计为辅助新闻工作者与内容审核员的工具，帮助他们在海量信息中快速定位可核查的声明并获取结构化证据。其问答分解机制特别适用于社交媒体平台上的谣言识别，能够自动生成针对性的检索查询，从公开网络抓取时效性强的佐证材料。此外，该数据集还支持构建解释性核查面板，向用户透明展示从证据到判决的完整推理路径，从而增强公众对自动化核查结果的信任。

衍生相关工作

AVeriTeC的发布催生了一系列聚焦于开放域证据检索与多跳推理的后续工作。研究者借鉴其问答分解范式，开发了如Varifocal Question Generation等模型，旨在针对声明自动生成更具鉴别力的子问题。同时，其时间敏感性的标注策略启发了Temporal Stance Detection方法，专门用于处理动态演变的声明。此外，该数据集也推动了基于大语言模型的证据生成与验证研究，例如利用检索增强生成框架来提升事实核查的可解释性与准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集