fever/fever|事实验证数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 名称: FEVER
- 语言: 英语
- 许可证: CC-BY-SA-3.0, GPL-3.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 来源: 扩展自Wikipedia
- 任务类别: 文本分类
- 标签: 知识验证
数据集配置
-
v1.0:
- 特征:
id
: int32label
: stringclaim
: stringevidence_annotation_id
: int32evidence_id
: int32evidence_wiki_url
: stringevidence_sentence_id
: int32
- 数据分割:
train
: 311431个样本,29591412字节labelled_dev
: 37566个样本,3643157字节unlabelled_dev
: 19998个样本,1548965字节unlabelled_test
: 19998个样本,1617002字节paper_dev
: 18999个样本,1821489字节paper_test
: 18567个样本,1821668字节
- 下载大小: 44853972字节
- 数据集大小: 40043693字节
- 特征:
-
v2.0:
- 特征: 同v1.0
- 数据分割:
validation
: 2384个样本,306243字节
- 下载大小: 392466字节
- 数据集大小: 306243字节
-
wiki_pages:
- 特征:
id
: stringtext
: stringlines
: string
- 数据分割:
wikipedia_pages
: 5416537个样本,7254115038字节
- 下载大小: 1713485474字节
- 数据集大小: 7254115038字节
- 特征:
数据集创建
- 注释创建者: 众包
- 语言创建者: 已发现
使用许可
- FEVER许可: 数据注释包含来自Wikipedia的内容,根据Wikipedia版权政策获得许可。这些注释根据Wikipedia文章页面的许可条款提供,或者在Wikipedia许可条款不可用的情况下,根据Creative Commons Attribution-ShareAlike License (版本3.0)提供。
引用信息
-
FEVER数据集: bibtex @inproceedings{Thorne18Fever, author = {Thorne, James and Vlachos, Andreas and Christodoulopoulos, Christos and Mittal, Arpit}, title = {{FEVER}: a Large-scale Dataset for Fact Extraction and {VERification}}, booktitle = {NAACL-HLT}, year = {2018} }
-
FEVER 2.0 Adversarial Attacks数据集: bibtex @inproceedings{Thorne19FEVER2, author = {Thorne, James and Vlachos, Andreas and Cocarascu, Oana and Christodoulopoulos, Christos and Mittal, Arpit}, title = {The {FEVER2.0} Shared Task}, booktitle = {Proceedings of the Second Workshop on {Fact Extraction and VERification (FEVER)}}, year = {2018} }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
Club Football Match Data (2000 - 2025)
该数据集提供了一个简单的入口,用于分析全球27个国家和42个联赛的足球比赛数据,包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分,每月的1号和15号对欧洲约500支最佳球队进行快照。
github 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录