fever/fever|事实验证数据集|自然语言处理数据集

hugging_face2024-01-18 更新2024-05-25 收录

事实验证

自然语言处理

下载链接：

https://hf-mirror.com/datasets/fever/fever

下载链接

链接失效反馈

资源简介：

FEVER（Fact Extraction and VERification）数据集包含185,445个从维基百科句子中提取并随后验证的声明，这些声明被分类为支持、反驳或信息不足。对于前两类，标注者还记录了形成其判断所需证据的句子。该数据集旨在促进可验证知识提取领域的研究进展，特别关注对抗性攻击和错误信息的检测。

提供机构：

fever

原始信息汇总

数据集概述

基本信息

名称: FEVER
语言: 英语
许可证: CC-BY-SA-3.0, GPL-3.0
多语言性: 单语种
大小: 100K<n<1M
来源: 扩展自Wikipedia
任务类别: 文本分类
标签: 知识验证

数据集配置

v1.0:
- 特征:
  - id: int32
  - label: string
  - claim: string
  - evidence_annotation_id: int32
  - evidence_id: int32
  - evidence_wiki_url: string
  - evidence_sentence_id: int32
- 数据分割:
  - train: 311431个样本，29591412字节
  - labelled_dev: 37566个样本，3643157字节
  - unlabelled_dev: 19998个样本，1548965字节
  - unlabelled_test: 19998个样本，1617002字节
  - paper_dev: 18999个样本，1821489字节
  - paper_test: 18567个样本，1821668字节
- 下载大小: 44853972字节
- 数据集大小: 40043693字节
v2.0:
- 特征: 同v1.0
- 数据分割:
  - validation: 2384个样本，306243字节
- 下载大小: 392466字节
- 数据集大小: 306243字节
wiki_pages:
- 特征:
  - id: string
  - text: string
  - lines: string
- 数据分割:
  - wikipedia_pages: 5416537个样本，7254115038字节
- 下载大小: 1713485474字节
- 数据集大小: 7254115038字节

数据集创建

注释创建者: 众包
语言创建者: 已发现

使用许可

FEVER许可: 数据注释包含来自Wikipedia的内容，根据Wikipedia版权政策获得许可。这些注释根据Wikipedia文章页面的许可条款提供，或者在Wikipedia许可条款不可用的情况下，根据Creative Commons Attribution-ShareAlike License (版本3.0)提供。

引用信息

FEVER数据集: bibtex @inproceedings{Thorne18Fever, author = {Thorne, James and Vlachos, Andreas and Christodoulopoulos, Christos and Mittal, Arpit}, title = {{FEVER}: a Large-scale Dataset for Fact Extraction and {VERification}}, booktitle = {NAACL-HLT}, year = {2018} }
FEVER 2.0 Adversarial Attacks数据集: bibtex @inproceedings{Thorne19FEVER2, author = {Thorne, James and Vlachos, Andreas and Cocarascu, Oana and Christodoulopoulos, Christos and Mittal, Arpit}, title = {The {FEVER2.0} Shared Task}, booktitle = {Proceedings of the Second Workshop on {Fact Extraction and VERification (FEVER)}}, year = {2018} }

AI搜集汇总

数据集介绍

构建方式

FEVER数据集的构建基于对Wikipedia内容的深度挖掘与处理。具体而言，研究团队通过修改Wikipedia中的句子生成185,445条声明，这些声明随后被验证，且验证过程中不依赖于原始句子。声明被分类为‘支持’、‘反驳’或‘信息不足’，并为前两类提供了相应的证据句子。此外，FEVER 2.0版本引入了对抗性攻击数据集，由参与者生成旨在诱导分类错误的声明，进一步增强了数据集的复杂性和实用性。

使用方法

FEVER数据集主要用于训练和评估事实验证模型。研究者可以通过加载数据集的不同配置（如v1.0和v2.0）来获取训练和验证数据。数据集提供了详细的字段信息，包括声明、标签、证据等，便于模型进行特征提取和分类任务。使用时，建议参考官方提供的下载和加载指南，确保数据处理的准确性和效率。

背景与挑战

背景概述

在信息爆炸的时代，尽管互联网上存在大量关于几乎所有主题的网页，但其中只有一小部分信息是以结构化形式存在的（如Wikidata、Freebase等）。因此，如何从自由文本中提取结构化知识成为一个关键问题。FEVER（Fact Extraction and VERification）数据集由James Thorne、Andreas Vlachos、Christos Christodoulopoulos和Arpit Mittal等研究人员于2018年创建，旨在解决从文本中提取和验证事实的问题。该数据集包含185,445条声称，这些声称是通过修改维基百科中的句子生成的，并随后在没有参考原始句子的情况下进行验证。声称被分类为‘支持’、‘反驳’或‘信息不足’。对于前两类，标注者还记录了形成必要证据的句子。FEVER数据集的创建推动了可验证知识提取领域的研究进展，成为该领域的重要资源。

当前挑战

FEVER数据集面临的挑战主要集中在两个方面。首先，从自由文本中提取结构化知识本身就是一个复杂的过程，涉及自然语言处理和信息检索等多个领域的技术。其次，数据集的构建过程中，如何确保标注的准确性和一致性也是一个重大挑战。此外，FEVER 2.0引入了对抗性攻击数据集，这增加了系统的鲁棒性要求，因为模型需要能够识别和处理那些旨在诱导分类错误的声称。这些挑战不仅推动了现有技术的进步，也为未来的研究提供了丰富的方向。

常用场景

经典使用场景

在知识验证领域，FEVER数据集被广泛用于训练和评估模型对文本声明的验证能力。该数据集通过提供大量从维基百科中提取的声明及其对应的证据，使得研究者能够开发和测试自动化的知识验证系统。这些系统需要判断声明是否被维基百科中的信息所支持、反驳或无法确定。

解决学术问题

FEVER数据集解决了在自然语言处理领域中，如何从大量非结构化文本中提取和验证事实的学术问题。通过提供一个大规模的、标注精细的数据集，FEVER促进了知识提取和验证技术的发展，推动了文本分类和信息检索等相关研究的前沿。

实际应用

在实际应用中，FEVER数据集被用于构建和优化自动化的信息验证系统，这些系统可以应用于新闻核查、社交媒体监控和在线教育等多个领域。通过验证和纠正错误信息，这些系统有助于提高信息的真实性和可靠性，从而增强公众对信息的信任。

数据集最近研究

最新研究方向

在知识验证领域，FEVER数据集的最新研究方向主要集中在提升事实验证系统的鲁棒性和准确性。随着信息爆炸时代的到来，如何从海量文本中高效提取并验证事实成为研究热点。FEVER数据集通过提供大规模的标注数据，推动了这一领域的技术进步。近期研究不仅关注于改进传统的文本匹配和推理模型，还引入了对抗训练和多模态融合等前沿技术，以应对日益复杂的虚假信息挑战。这些研究不仅提升了系统的性能，也为构建更加可靠的信息验证平台奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Club Football Match Data (2000 - 2025)

该数据集提供了一个简单的入口，用于分析全球27个国家和42个联赛的足球比赛数据，包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分，每月的1号和15号对欧洲约500支最佳球队进行快照。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。