AVeriTeC

arXiv2023-11-08 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2305.13117v3

下载链接

链接失效反馈

官方服务：

资源简介：

AVeriTeC是一个包含4,568个真实世界声明的新数据集，这些声明由50个不同的组织进行事实核查。每个声明都附有在线可获得的证据支持的问题-答案对，以及解释证据如何结合以产生裁决的文本理由。

AVeriTeC is a novel dataset comprising 4,568 real-world claims that have been fact-checked by 50 distinct organizations. Each claim is accompanied by online-accessible evidence-backed question-answer pairs, alongside textual justifications explaining how the evidence is integrated to yield a final verdict.

创建时间：

2023-05-22

搜集汇总

数据集介绍

构建方式

在自动化事实核查领域，现有数据集常因依赖人工构造的声明、缺乏证据与中间推理标注或包含声明发布后的证据而受限。AVERiTeC数据集通过多轮标注流程构建，从50家事实核查机构的文章中提取了4,568条真实世界声明。首先，标注员从文章中提取并规范化声明，确保其上下文独立性；随后，通过问题生成与回答步骤，基于网络证据构建问答对以分解核查过程；最后，通过独立的证据充分性检查，由不同标注员仅依据问答对给出裁决与文本理由，以此验证证据的充分性并避免时间泄漏问题。

特点

AVERiTeC数据集的核心特点在于其真实性与结构化证据表示。所有声明均源自现实世界的事实核查文章，覆盖广泛主题与地理区域，确保了数据的现实相关性。数据集通过问答对形式分解证据检索过程，提供了可解释的中间推理步骤，并包含文本理由以说明证据如何导向裁决。此外，它引入了“冲突证据/选择性呈现”类别，以处理真实世界中证据矛盾或误导性语境的情况。通过时间排序的数据划分与证据日期限制，有效避免了时间泄漏问题，提升了评估的严谨性。

使用方法

AVERiTeC数据集适用于开发与评估基于开放网络的自动化事实核查系统。使用时，模型需从给定声明生成问题，通过网络检索证据并生成答案，最终综合证据得出裁决与理由。评估采用匈牙利算法与METEOR度量，近似匹配生成的问答对与参考证据，并根据证据充分性阈值计算裁决与理由的准确性。数据集的时间划分要求模型在训练、验证与测试时遵循时间顺序，以模拟现实场景并防止预训练数据泄漏。此外，其结构化标注支持可解释性研究，便于分析系统推理过程。

背景与挑战

背景概述

在信息时代，虚假信息的泛滥对公共话语构成了严峻挑战，自动事实核查技术应运而生，旨在辅助人工核查过程。剑桥大学计算机科学与技术系的Michael Schlichtkrull、Zhijiang Guo与Andreas Vlachos团队于2023年推出了AVeriTeC数据集，该数据集收录了来自50个不同机构的4568条真实世界声明，每条声明均标注了基于网络证据的问题-答案对及文本化论证。AVeriTeC的构建旨在克服现有数据集的局限，如依赖人工合成声明、缺乏证据与中间推理标注或存在时间泄露问题，通过多轮标注流程确保了证据的充分性与时间一致性，显著提升了领域内标注的一致性水平，为自动化事实核查研究提供了更为真实、结构化的基准资源。

当前挑战

AVeriTeC数据集致力于解决真实世界声明验证的核心挑战，其首要任务在于通过问题-答案分解与证据检索，实现对复杂声明的多步骤推理与验证，这要求模型不仅需精准生成关键性问题，还需从开放网络中检索并整合分散的证据源。在构建过程中，研究团队面临三大关键挑战：一是语境依赖性问题，即许多声明需依赖原始核查文章的额外信息才能理解；二是证据不充分性，即现有数据集的标注常因依赖假设而与实际证据不匹配；三是时间泄露风险，即证据文档的发布时间可能晚于声明日期，导致评估失真。通过声明规范化、多轮标注与时间排序分割，AVeriTeC有效缓解了这些挑战，但开放网络检索的噪声与证据路径的多样性仍为模型开发与评估带来持续困难。

常用场景

经典使用场景

在自动化事实核查研究领域，AVERiTeC数据集被广泛用于开发和评估基于开放网络证据的复杂声明验证系统。其核心应用场景在于模拟真实世界中的多步骤核查流程：研究者利用该数据集训练模型从海量网络信息中检索相关证据，通过问题生成与回答的分解机制对声明进行结构化分析，最终生成可解释的核查结论。这种以问答对形式组织证据的范式，为构建端到端的自动化事实核查管道提供了标准化测试平台，尤其擅长处理涉及多跳推理与矛盾证据的复杂声明场景。

实际应用

该数据集支撑的实际应用主要体现在辅助性事实核查工具的开发。新闻机构可利用基于AVERiTeC训练的模型快速筛选网络谣言，通过自动化证据检索与问答分解生成初步核查报告，大幅提升记者核实信息的效率。社交媒体平台可集成此类系统对用户生成内容进行可信度预警，为内容审核提供证据链参考。在科普传播领域，该系统能帮助识别科学类声明的证据完整性，特别适用于公共卫生事件等需要快速响应虚假信息的场景，但需与人工审核结合以避免算法偏见带来的认知风险。

衍生相关工作

AVERiTeC催生了多个重要的衍生研究方向。在方法学层面，研究者基于其问答分解框架开发了Varifocal问题生成模型，通过动态调整问题粒度提升证据检索效率。数据集构建方面，后续工作借鉴其多轮标注机制与时间约束策略，创建了针对特定领域（如气候变化、健康医疗）的垂直事实核查数据集。评估体系上，匈牙利算法与METEOR相结合的证据匹配度量方法被广泛采纳为开放域检索任务的新评估标准，同时促进了基于大型语言模型的零样本事实核查范式的探索与改进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集