fever/feverous

Name: fever/feverous
Creator: fever
Published: 2022-10-25 05:50:36
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fever/feverous

下载链接

链接失效反馈

官方服务：

资源简介：

FEVEROUS（基于非结构化和结构化信息的事实提取与验证）是一个事实验证数据集，包含87,026个经过验证的声明。每个声明都附有来自Wikipedia的句子和/或表格单元作为证据，并标注了这些证据是否支持、反驳或不足以得出结论。数据集还包含注释元数据，如注释者的操作（查询关键词、点击页面、时间戳）以及每个声明所面临的挑战类型。数据集的任务是验证文本声明与文本来源的一致性，主要应用于文本分类任务。数据集为英文单语，大小为100K<n<1M，数据来源为Wikipedia，采用CC-BY-SA-3.0许可证。

FEVEROUS (Fact Extraction and VERification over Unstructured and Structured Information) is a fact verification dataset containing 87,026 verified claims. Each claim is accompanied by sentences and/or table cells from Wikipedia as evidence, and annotated with whether the provided evidence supports the claim, refutes the claim, or is insufficient to draw a definitive conclusion. The dataset also includes annotation metadata, such as annotators' actions (query keywords, page clicks, timestamps) and the types of challenges faced by each claim. The core task of this dataset is to verify the consistency between textual claims and their source texts, which is primarily applied to text classification tasks. This is an English monolingual dataset with a size of 100K < n < 1M, sourced from Wikipedia, and licensed under CC-BY-SA-3.0.

提供机构：

fever

原始信息汇总

数据集概述

名称: FEVEROUS

描述: FEVEROUS（Fact Extraction and VERification Over Unstructured and Structured information）是一个事实验证数据集，包含87,026个经过验证的声明。每个声明都附有证据，这些证据以维基百科中的句子和/或表格单元格的形式出现，并附有一个标签，指示这些证据是支持、反驳还是不足以得出结论。

语言: 英语 (en)

许可证: Creative Commons Attribution-ShareAlike 3.0 (cc-by-sa-3.0)

数据集大小: 100K<n<1M

多语言性: 单语

任务类别: 文本分类

任务: 文本声明的验证

数据集结构

数据实例大小: 下载的数据集文件大小为187.82 MB，生成的数据集大小为123.25 MB，总磁盘使用量为311.07 MB。
数据字段:
- id (int): 样本ID。
- label (ClassLabel): 声明的标注标签，可以是"SUPPORTS", "REFUTES", "NOT ENOUGH INFO"之一。
- claim (str): 声明的文本。
- evidence (list of dict): 证据集，每个集包含字典，字典中有content和context两个字段。
- annotator_operations (list of dict): 标注者用于查找证据和得出结论的操作列表。
- expected_challenge (str): 声明生成器选择的验证声明时将面临的挑战。
- challenge (str): 验证声明的主要挑战。
数据分割:

分割示例数量

train 71291

validation 7890

test 7845

数据集创建

来源数据: 扩展自维基百科。
标注者: 众包。
语言创建者: 发现。

许可证信息

这些数据标注包含来自维基百科的材料，根据维基百科版权政策获得许可。这些标注根据描述的许可证条款提供，或根据Creative Commons Attribution-ShareAlike License (version 3.0)提供。

引用信息

如果您使用此数据集，请引用以下文献: bibtex @inproceedings{Aly21Feverous, author = {Aly, Rami and Guo, Zhijiang and Schlichtkrull, Michael Sejr and Thorne, James and Vlachos, Andreas and Christodoulopoulos, Christos and Cocarascu, Oana and Mittal, Arpit}, title = {{FEVEROUS}: Fact Extraction and {VERification} Over Unstructured and Structured information}, eprint={2106.05707}, archivePrefix={arXiv}, primaryClass={cs.CL}, year = {2021} }

搜集汇总

数据集介绍

构建方式

FEVEROUS数据集的构建旨在解决从非结构化和结构化信息中进行事实提取和验证的问题。该数据集由来自Wikipedia的87026条经过验证的声明组成，每条声明都附有来自Wikipedia句子和/或表格单元格的证据，以及一个标签，表明证据是否支持、反驳或不足以做出裁决。数据集还包含注释元数据，如注释者的操作（查询关键词、页面点击、时间戳）以及每个声明提出的挑战类型。

使用方法

使用FEVEROUS数据集时，研究者可以将其作为事实验证任务的训练和测试数据集。数据集中的每个实例都包含声明、证据、标签和注释者操作等信息，方便研究者进行模型训练和性能评估。此外，研究者还可以利用数据集中的挑战类型信息，设计针对性的实验来评估模型在不同场景下的表现。

背景与挑战

背景概述

在信息爆炸的时代，互联网上充斥着海量信息，然而如何从这些信息中提取出准确的事实，并对文本信息进行有效的事实核查，成为了一个重要的研究领域。FEVEROUS数据集正是为了应对这一挑战而创建的。该数据集由FEVER工作组提出，旨在促进可验证知识提取的研究。FEVEROUS数据集包含87,026个经过验证的声明，每个声明都附有来自维基百科的句子或表格单元格作为证据，以及一个标签，表明证据是否支持、反驳或不足以做出裁决。此外，数据集还包含了标注元数据，例如标注者的操作和每个声明所面临的挑战类型。

当前挑战

FEVEROUS数据集面临的挑战主要包括：1) 如何有效地从非结构化和结构化信息中提取事实并进行验证；2) 如何处理数据集中可能存在的偏见和局限性；3) 如何确保数据集的社会影响是积极的，并且不会加剧社会不平等。

常用场景

经典使用场景

在信息爆炸的时代，准确的知识验证显得尤为重要。FEVEROUS数据集应运而生，旨在推动可验证知识提取领域的进步。该数据集由87,026个经过验证的声明组成，每个声明都与维基百科中的句子或表格单元格作为证据相关联，并带有标签，表明证据是否支持、反驳或不足以得出结论。FEVEROUS数据集的经典使用场景是进行文本声明的验证，相较于文本蕴涵（TE）/自然语言推理任务，FEVEROUS要求从大量文档中检索证据，以形成证据。这使得FEVEROUS数据集成为研究可验证知识提取和文本声明验证的理想选择。

解决学术问题

FEVEROUS数据集解决了知识验证和文本声明验证中的关键问题。在信息泛滥的时代，如何准确验证文本声明是一个挑战。FEVEROUS数据集通过提供大量经过验证的声明和相应的证据，为研究者提供了一个研究可验证知识提取和文本声明验证的平台。这使得研究者可以探索如何从非结构化和结构化信息中提取事实，并验证文本声明的准确性。FEVEROUS数据集对于推动知识验证和文本声明验证领域的研究具有重要意义。

实际应用

FEVEROUS数据集在现实世界中的应用场景广泛。例如，它可以帮助开发智能问答系统，提高问答系统的准确性和可靠性。此外，FEVEROUS数据集还可以用于开发事实检查工具，帮助用户识别和纠正虚假信息。此外，FEVEROUS数据集还可以用于开发文本摘要和生成工具，提高文本处理的质量和效率。

数据集最近研究

分割	示例数量
train	71291
validation	7890
test	7845