AVeriTeC_dev_filtered_10shot

Name: AVeriTeC_dev_filtered_10shot
Creator: s-nlp
Published: 2026-03-06 02:15:13
License: 暂无描述

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/s-nlp/AVeriTeC_dev_filtered_10shot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与事实核查相关的结构化信息，涵盖多个字段如声明内容（claim）、标签（label）、理由（justification）、事实核查文章（fact_checking_article）以及事实核查策略（fact_checking_strategies）等。数据集包含427个样本，总大小为2,958,926字节，仅包含一个开发集（dev）划分。字段类型包括字符串、布尔值、浮点数和整数等，适用于自然语言处理中的事实核查、文本分类等任务。

提供机构：

s-nlp

创建时间：

2026-03-06

原始信息汇总

数据集概述

基本信息

数据集名称: AVeriTeC_dev_filtered_10shot
来源平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/s-nlp/AVeriTeC_dev_filtered_10shot

数据规模与结构

数据总量: 2,958,926 字节
下载大小: 621,577 字节
数据划分: 仅包含一个开发集（dev）
样本数量: 427 个示例

数据特征（字段说明）

数据集包含以下21个字段：

Unnamed: 0: 整数类型（int64）
claim: 字符串类型，表示声明内容
required_reannotation: 布尔类型，表示是否需要重新标注
label: 字符串类型，表示标签
justification: 字符串类型，表示理由或依据
claim_date: 字符串类型，表示声明日期
speaker: 字符串类型，表示声明者
original_claim_url: 字符串类型，表示原始声明URL
fact_checking_article: 字符串类型，表示事实核查文章
reporting_source: 字符串类型，表示报道来源
location_ISO_code: 字符串类型，表示地理位置ISO代码
claim_types: 字符串类型，表示声明类型
fact_checking_strategies: 字符串类型，表示事实核查策略
questions: 字符串类型，表示问题
cached_original_claim_url: 字符串类型，表示缓存的原始声明URL
is_correct: 浮点数类型（float64），表示是否正确
is_hallu: 浮点数类型（float64），表示是否为幻觉
primed_text: 字符串类型，表示引导文本
out: 字符串类型，表示输出
out_clean: 字符串类型，表示清理后的输出
is_good: 布尔类型，表示是否良好

数据文件

配置名称: default
文件路径: data/dev-*（开发集数据文件）

搜集汇总

数据集介绍

构建方式

在事实核查研究领域，AVeriTeC_dev_filtered_10shot数据集的构建体现了严谨的数据工程流程。该数据集源自AVeriTeC基准的开发集，通过特定筛选机制提取了427个样本，形成了这个经过过滤的十样本提示版本。其构建核心在于从原始开发集中依据“is_good”等质量指标进行精选，确保每个条目都包含完整的声明、标签、理由及丰富的元数据，如声明日期、发言者、来源链接和事实核查策略，从而为模型评估提供了高质量、结构化的基准数据。

使用方法

使用AVeriTeC_dev_filtered_10shot数据集时，研究者可将其直接应用于事实核查模型的开发与评估。典型流程涉及加载开发集分割，利用“claim”作为输入文本，“label”作为监督信号进行模型训练或零样本/少样本测试。通过整合“justification”和“fact_checking_article”等辅助字段，可增强模型的可解释性。该数据集尤其适合用于评估大语言模型在少量提示下的性能，通过“primed_text”和“out”字段分析生成输出的质量，为自动化事实核查系统的迭代优化提供实证基础。

背景与挑战

背景概述

在自然语言处理领域，虚假信息检测与事实核查任务日益凸显其重要性，AVeriTeC_dev_filtered_10shot数据集应运而生，旨在为相关研究提供结构化基准。该数据集由国际研究团队构建，聚焦于多语言、多领域声明的真实性验证，核心研究问题在于如何通过自动化系统高效识别与评估声明的可信度。其创建整合了丰富的元数据，如声明来源、事实核查策略及标注信息，推动了事实核查模型在真实场景中的泛化能力与可解释性发展，对促进信息可信度评估技术的进步具有显著影响力。

当前挑战

该数据集致力于解决虚假信息检测领域的核心挑战，即如何在多语言、多文化背景下准确识别复杂声明的真实性，同时应对声明中隐含的偏见与语境依赖性。构建过程中，研究人员面临数据收集与标注的复杂性，需确保声明的多样性与代表性，并处理元数据（如事实核查策略与声明类型）的一致性与完整性。此外，平衡数据规模与标注质量，以及适应动态变化的虚假信息模式，均为数据集构建与后续应用中的关键难题。

常用场景

经典使用场景

在自然语言处理领域，特别是事实核查与虚假信息检测的研究中，AVeriTeC_dev_filtered_10shot数据集被广泛应用于少样本学习场景。该数据集通过精心筛选的10个示例，为模型提供了有限的监督信号，旨在评估模型在资源受限条件下对复杂声明的真实性进行判断的能力。研究者通常利用其结构化字段，如声明内容、标签和理由，来训练或微调语言模型，以探索模型在少量标注数据下的泛化性能和鲁棒性，从而推动少样本事实核查技术的发展。

解决学术问题

该数据集主要解决了自然语言处理中少样本学习与事实核查交叉领域的核心学术问题。它针对传统事实核查模型依赖大量标注数据、难以适应新兴或低资源语言场景的局限性，提供了标准化的评估基准。通过整合声明类型、核查策略等多维度信息，数据集促进了模型对复杂语义上下文的理解，帮助研究者深入探究少样本条件下模型的可解释性、偏差控制以及跨领域迁移能力，对提升人工智能在信息可信度评估中的实用价值具有重要理论意义。

实际应用

在实际应用中，AVeriTeC_dev_filtered_10shot数据集为开发自动化事实核查工具提供了关键支持。新闻机构与社交媒体平台可借助基于该数据集训练的模型，快速筛查海量信息中的可疑声明，辅助人工核查以提升效率。此外，在教育与公共政策领域，该数据集有助于构建信息素养培训系统，帮助公众识别虚假内容。其多语言与多地域覆盖的特点，进一步推动了全球化背景下虚假信息治理技术的落地与普及。

数据集最近研究