five

copenlu/sufficient_facts

收藏
Hugging Face2022-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/sufficient_facts
下载链接
链接失效反馈
官方服务:
资源简介:
SufficientFacts数据集是在2022年TACL期刊上发表的论文《Fact Checking with Insufficient Evidence》中引入的。该数据集旨在研究事实核查模型在证据不足时如何做出判断。数据集包含从FEVER、HoVer和VitaminC三个数据集中提取的数据,并通过众包方式进行注释。数据集的主要贡献包括:1) 通过一种新的流畅性保持方法,在证据中省略信息,进行深入的实证分析;2) 通过询问注释者省略的证据是否重要,创建了一个新的诊断数据集;3) 提出了一种新的数据增强策略,通过对比自学习缺失证据来提高证据充分性预测的性能。
提供机构:
copenlu
原始信息汇总

数据集概述

数据集名称

  • SufficientFacts

数据集描述

  • 摘要:SufficientFacts数据集是为研究事实核查模型在证据不足时的表现而创建的。该数据集通过移除证据中的信息,并由众包工作者标注剩余信息是否足以验证声明,来评估模型在证据不充分时的判断能力。
  • 语言:英语

数据集结构

  • 数据实例:数据集包含三个子集,分别为FEVER、HoVer和VitaminC,每个子集包含不同级别的证据移除(成分级和句子级)。
  • 数据字段
    • claim:待验证的声明
    • evidence:增强的证据,即移除部分信息的证据
    • label_before:移除信息前的原始标签
    • label_after:移除信息后的增强标签
    • type:移除信息的类型
    • removed:从证据中移除的文本
    • text_orig:原始证据文本,移除的信息以红色标记

数据集创建

  • 来源数据:扩展自FEVER、HoVer和FEVER_gold_evidence数据集
  • 标注过程:通过Amazon Mechanical Turk进行众包标注,标注者需判断移除信息后的证据是否仍足以验证声明。
  • 许可证:MIT

数据集使用考虑

  • 社会影响:该数据集有助于提高事实核查模型在证据不足时的准确性和可靠性。
  • 偏见讨论:数据集通过众包方式收集标注,可能存在标注者偏见。

附加信息

  • 数据集维护者@apepa

  • 引用信息

    @article{10.1162/tacl_a_00486, author = {Atanasova, Pepa and Simonsen, Jakob Grue and Lioma, Christina and Augenstein, Isabelle}, title = "{Fact Checking with Insufficient Evidence}", journal = {Transactions of the Association for Computational Linguistics}, volume = {10}, pages = {746-763}, year = {2022}, month = {07}, abstract = "{...}", issn = {2307-387X}, doi = {10.1162/tacl_a_00486}, url = {https://doi.org/10.1162/tacl_a_00486}, eprint = {https://direct.mit.edu/tacl/article-pdf/doi/10.1162/tacl_a_00486/2037141/tacl_a_00486.pdf}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作