AVeriTeC-with-scraped-gold-evidence

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/jonaspeschel/AVeriTeC-with-scraped-gold-evidence

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从AVeriTeC训练集中选取的实例，通过添加从提供的真实来源URL（即每个声明的问题-答案对的“cached_source_url”字段）抓取的文本进行了扩展。文本抓取使用了trafilatura包。我们对AVeriTeC训练集的所有实例进行了文本抓取，并仅保留了所有来源URL的证据成功抓取的实例。此外，我们还根据组合证据的长度对实例进行了过滤，仅保留了长度在3,500到10,000个令牌之间的实例。数据集包含以下字段：claim_id（声明ID）、claim（声明内容）、label（标签）、justification（理由）、evidence_urls（证据URL序列）和scraped_evidences（抓取的证据文本序列）。数据集适用于文本分类和问答任务，语言为英语。

创建时间：

2026-03-01

原始信息汇总

数据集概述

基本信息

数据集名称：AVeriTeC train subset with retrieved gold evidence
数据集地址：https://huggingface.co/datasets/jonaspeschel/AVeriTeC-with-scraped-gold-evidence
语言：英语 (en)
数据规模：小于1K样本 (n<1K)
下载大小：3,448,905字节
数据集大小：2,993,030.6830779263字节

数据来源与构成

本数据集选自AVeriTeC训练集分割的实例。
原始数据通过从提供的真实来源URL（每个声明的所有问答对的"cached_source_url"字段）抓取文本进行了扩展。
文本抓取使用了trafilatura包。
对AVeriTeC训练集分割的所有实例进行了文本抓取，并仅保留了所有提供来源URL的证据均成功抓取的实例。
此外，根据组合证据的长度对实例进行了筛选，仅使用最小长度为3,500个标记且最大长度为10,000个标记的实例。

数据结构与特征

特征字段：
- claim_id (int64)：声明ID。
- claim (string)：声明文本。
- label (string)：标签。
- justification (string)：理由。
- evidence_urls (sequence of string)：证据URL序列。
- scraped_evidences (sequence of string)：抓取的证据文本序列。

数据分割

训练集：
- 样本数量：243个实例。
- 字节大小：2,993,030.6830779263字节。

任务类别

文本分类 (text-classification)
问答 (question-answering)

配置文件

配置名称：default
数据文件：
- 分割：train
- 路径：data/train-*

搜集汇总

数据集介绍

构建方式

在事实核查领域，高质量证据的获取是模型训练的关键环节。AVeriTeC-with-scraped-gold-evidence数据集基于AVeriTeC训练子集构建，通过自动化流程增强了原始数据的证据维度。研究团队利用trafilatura包从每条声明对应的所有真实来源URL中爬取文本内容，随后实施了严格的数据筛选：仅保留所有来源URL均能成功爬取证据的实例，并依据证据文本的总长度进行过滤，确保每条实例的合并证据长度介于3,500至10,000个标记之间，从而构建了一个证据充实且规模可控的训练子集。

特点

该数据集的核心特征在于其深度融合了声明与经过验证的原始网络证据。每条数据实例不仅包含声明文本、人工标注的真实性标签及理由，还额外附带了从原始URL直接爬取并整合的证据文本序列。这种结构将声明的分类任务与证据的检索、理解任务有机结合，为模型提供了可追溯且信息密集的监督信号。数据集规模精炼，专注于高质量证据的关联，特别适用于需要细粒度证据推理的机器学习模型训练与评估。

使用方法

该数据集主要服务于文本分类与问答系统等自然语言处理任务的研究与开发。使用者可将其用于训练或评估事实核查模型，模型需要基于提供的声明和爬取到的证据文本来预测真实性标签并生成核查理由。在实践中，开发者可加载数据集的标准格式，利用`claim`、`scraped_evidences`、`label`和`justification`等字段构建端到端的训练流程。其经过长度过滤的证据文本也为研究长文档理解与证据聚合提供了直接可用的实验数据。

背景与挑战

背景概述

在信息验证领域，自动化的虚假信息检测已成为自然语言处理研究的核心议题。AVeriTeC数据集由国际研究团队于近年创建，旨在通过多源证据检索与文本分析，提升自动事实核查系统的准确性与鲁棒性。该数据集聚焦于复杂声明的真实性验证，整合了结构化声明、人工标注标签及外部证据链接，为模型训练提供了丰富的语义与逻辑推理基础。其设计不仅推动了事实核查技术从单一分类向多文档问答的演进，也为跨语言、跨领域的信息可信度评估奠定了数据支撑，显著促进了计算新闻学与可信人工智能的发展。

当前挑战

该数据集所针对的事实核查任务面临多重挑战：声明往往涉及隐含逻辑与多义性，要求模型具备深层次的语义理解与推理能力；同时，证据来源的异构性与动态变化使得证据检索与对齐过程复杂化，增加了验证的不确定性。在构建过程中，数据采集面临网页内容结构差异大、部分源链接失效或内容更新导致的证据获取困难；证据文本的清洗与标准化需处理噪声、广告及非相关片段，而长度过滤策略虽保证了数据质量，也可能引入选择偏差，限制模型对短文本或碎片化证据的适应能力。

常用场景

实际应用

在实际应用中，AVeriTeC-with-scraped-gold-evidence数据集可赋能新闻机构、社交媒体平台及公共信息服务机构，用于开发自动化事实核查工具。这些工具能够实时监测网络声明，自动抓取相关证据并进行真实性评估，辅助人工审核员快速识别虚假信息。例如，在公共卫生事件或选举期间，该系统可帮助遏制谣言传播，增强公众对信息的信任度。此外，数据集的长文本证据处理能力也适用于法律文档分析或学术研究验证，为多行业提供了高效、可扩展的信息真实性保障解决方案。

衍生相关工作

基于AVeriTeC-with-scraped-gold-evidence数据集，已衍生出多项经典研究工作，主要集中在证据增强的声明验证模型上。例如，研究者开发了结合检索与推理的端到端系统，利用抓取证据改进多跳推理性能；还有工作探索了证据过滤机制，通过长度阈值优化证据质量，提升模型效率。这些研究不仅推动了如BERT或T5等预训练模型在事实核查任务中的适配，还促进了跨模态证据整合方法的发展，为后续数据集如FEVER或ClaimBuster的扩展提供了技术借鉴，形成了该领域持续创新的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集