copenlu/sufficient_facts
收藏Hugging Face2022-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/sufficient_facts
下载链接
链接失效反馈官方服务:
资源简介:
SufficientFacts数据集是在2022年TACL期刊上发表的论文《Fact Checking with Insufficient Evidence》中引入的。该数据集旨在研究事实核查模型在证据不足时如何做出判断。数据集包含从FEVER、HoVer和VitaminC三个数据集中提取的数据,并通过众包方式进行注释。数据集的主要贡献包括:1) 通过一种新的流畅性保持方法,在证据中省略信息,进行深入的实证分析;2) 通过询问注释者省略的证据是否重要,创建了一个新的诊断数据集;3) 提出了一种新的数据增强策略,通过对比自学习缺失证据来提高证据充分性预测的性能。
提供机构:
copenlu
原始信息汇总
数据集概述
数据集名称
- SufficientFacts
数据集描述
- 摘要:SufficientFacts数据集是为研究事实核查模型在证据不足时的表现而创建的。该数据集通过移除证据中的信息,并由众包工作者标注剩余信息是否足以验证声明,来评估模型在证据不充分时的判断能力。
- 语言:英语
数据集结构
- 数据实例:数据集包含三个子集,分别为FEVER、HoVer和VitaminC,每个子集包含不同级别的证据移除(成分级和句子级)。
- 数据字段:
claim:待验证的声明evidence:增强的证据,即移除部分信息的证据label_before:移除信息前的原始标签label_after:移除信息后的增强标签type:移除信息的类型removed:从证据中移除的文本text_orig:原始证据文本,移除的信息以红色标记
数据集创建
- 来源数据:扩展自FEVER、HoVer和FEVER_gold_evidence数据集
- 标注过程:通过Amazon Mechanical Turk进行众包标注,标注者需判断移除信息后的证据是否仍足以验证声明。
- 许可证:MIT
数据集使用考虑
- 社会影响:该数据集有助于提高事实核查模型在证据不足时的准确性和可靠性。
- 偏见讨论:数据集通过众包方式收集标注,可能存在标注者偏见。
附加信息
-
数据集维护者:@apepa
-
引用信息:
@article{10.1162/tacl_a_00486, author = {Atanasova, Pepa and Simonsen, Jakob Grue and Lioma, Christina and Augenstein, Isabelle}, title = "{Fact Checking with Insufficient Evidence}", journal = {Transactions of the Association for Computational Linguistics}, volume = {10}, pages = {746-763}, year = {2022}, month = {07}, abstract = "{...}", issn = {2307-387X}, doi = {10.1162/tacl_a_00486}, url = {https://doi.org/10.1162/tacl_a_00486}, eprint = {https://direct.mit.edu/tacl/article-pdf/doi/10.1162/tacl_a_00486/2037141/tacl_a_00486.pdf}, }



