FEVERFact
收藏arXiv2025-02-07 更新2025-02-11 收录
下载链接:
https://github.com/aic-factcheck/claim_extraction
下载链接
链接失效反馈官方服务:
资源简介:
FEVERFact数据集由布拉格查理大学人工智能中心创建,包含从4000个语境化的维基百科句子中提取的17000条原子性事实主张。该数据集是为了支持主张提取任务,并为评估生成的主张提供了六个度量的自动化评估框架。数据集适用于事实检查领域,解决了在自动化事实检查流程中提出事实主张的挑战。
The FEVERFact dataset was developed by the Artificial Intelligence Center of Charles University in Prague. It contains 17,000 atomic factual claims extracted from 4,000 contextualized Wikipedia sentences. This dataset is designed to support claim extraction tasks, and provides an automated evaluation framework with six metrics for evaluating generated claims. The dataset is applicable to the field of fact-checking, addressing the challenge of generating factual claims in automated fact-checking workflows.
提供机构:
布拉格查理大学人工智能中心
创建时间:
2025-02-07
原始信息汇总
FEVERFact 数据集
数据集描述
- 数据集名称:FEVERFact
- 数据集用途:用于事实核查的声明提取
数据集结构
- 数据集位置:
feverfact目录 - 数据获取方式:通过
feverfact_dataset_generation.ipynb脚本获取
相关文件
- 模型:由于大小限制,未上传至GitHub和4open.science,将通过huggingface模型仓库链接发布
- 笔记本:
notebooks目录,包含度量标准、预测等内容 - 结果:
results目录,展示了通过不同方法生成的声明及其与黄金数据对比的评分 - 注解:
annotations目录,单声明和多声明的注解均被展平为字符串,单声明度量为四位数,如"3311",分别代表忠实度、流畅度、去上下文化和原子性。多声明度量(焦点、覆盖度)的每位数字(0或1)表示预测/黄金声明是否在相应声明的串联中找到
度量标准说明
- 单声明度量:四位数,第一位代表忠实度,第二位代表流畅度,第三位代表去上下文化,第四位代表原子性
- 多声明度量:每位数字(0或1)代表预测/黄金声明是否在相应声明的串联中找到
搜集汇总
数据集介绍

构建方式
FEVERFact数据集的构建采用了逆向工程的方法,从原始的FEVER错误纠正数据中提取了4.4K个上下文相关的维基百科句子,并从中标注出17K个原子事实性陈述。这些句子最初是为WF1a任务标注的,旨在从每个句子中提取2-5个事实性陈述。然而,原始数据集中每个陈述的来源句子已经无法恢复。为了解决这个问题,研究团队使用自然语言推理模型,根据每个陈述的黄金证据中最常见的维基百科文章,重新构建了来源句子。然后,他们使用邻句和页面标题来解析指代关系,最终形成了FEVERFact数据集。该数据集被分为训练集、开发集和测试集,比例为80:10:10,并且确保了相同的页面标题不会出现在不同的分割中。
特点
FEVERFact数据集的特点在于其包含的17K个原子事实性陈述是从4K个上下文相关的维基百科句子中提取的,这些句子被标注为包含可验证的事实。数据集的设计旨在解决声明提取问题,这是一个从输入文本中生成一系列声明的任务。此外,FEVERFact数据集还提供了一套自动评估框架,包括6个指标:原子性、流畅性、去语境化、忠实度、焦点和覆盖度,这些指标都是为了评估生成的声明质量。数据集的构建方式使得它适合用于训练和评估声明提取模型,并且可以用于研究声明提取任务中的各种挑战。
使用方法
使用FEVERFact数据集的方法包括训练和评估声明提取模型。研究人员可以在这个数据集上训练各种模型,如QACG、LLM和T5,以学习从给定文本中提取声明的能力。在评估模型时,可以使用自动评估框架中的6个指标来衡量模型生成的声明的质量。此外,研究人员还可以使用数据集来研究声明提取任务中的各种挑战,例如声明相关性、上下文信息的使用等。为了验证评估框架的有效性,研究人员还进行了一项人类注释的研究,以验证自动指标与人类评分的一致性。
背景与挑战
背景概述
随着自然语言处理(NLP)领域的发展,自动事实核查已经成为研究的热点。FEVERFact数据集的创建正是为了应对这一挑战,它由Herbert Ullrich、Tomáš Mlynáˇr和Jan Drchal等人于2025年发布。该数据集从Wikipedia中提取了4,400个上下文化的句子和17,000个原子事实性陈述,旨在为事实核查研究提供高质量的数据支持。FEVERFact数据集的发布对于推动自动事实核查技术的发展具有重要意义,它不仅为研究人员提供了一个用于训练和评估模型的基准数据集,还促进了事实核查领域的研究进展。
当前挑战
FEVERFact数据集面临的主要挑战包括:1) 如何准确地从给定的文本中提取出所有的事实性陈述,并确保这些陈述的原子性、流畅性、去语境化和忠实性;2) 如何构建一个自动化评估框架,以便对生成的陈述进行全面的评估,包括原子性、流畅性、去语境化、忠实性、聚焦度和覆盖度等指标;3) 如何利用现有的NLP技术,如提示学习、迁移学习和基于NER的方法,来有效地提取事实性陈述。此外,由于事实性陈述的可信度是一个复杂的问题,因此如何构建一个可靠的评价框架来评估模型的性能也是一个重要的挑战。
常用场景
经典使用场景
FEVERFact数据集主要用于事实核查领域的声明提取任务。该数据集包含了从维基百科句子中提取的17K个原子事实声明,为研究人员提供了一个用于训练和评估声明提取模型的基准数据集。该数据集的经典使用场景包括:1)训练声明提取模型;2)评估声明提取模型的性能;3)研究声明提取任务的指标体系。
解决学术问题
FEVERFact数据集解决了声明提取任务中的一些常见学术研究问题,包括:1)声明提取模型的评价指标体系不完善;2)声明提取模型的性能评估方法不统一;3)声明提取模型的训练数据集不足。该数据集的意义和影响在于:1)为声明提取任务提供了一个统一的评价指标体系;2)为声明提取模型的性能评估提供了一个基准;3)为声明提取模型的训练提供了高质量的数据集。
衍生相关工作
FEVERFact数据集衍生了一些相关的经典工作,包括:1)基于该数据集训练的声明提取模型;2)基于该数据集提出的声明提取任务的指标体系;3)基于该数据集研究的声明提取模型的可解释性。
以上内容由遇见数据集搜集并总结生成



