ctu-aic/csfever_v2

Name: ctu-aic/csfever_v2
Creator: ctu-aic
Published: 2024-06-12 13:44:51
License: 暂无描述

Hugging Face2024-06-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ctu-aic/csfever_v2

下载链接

链接失效反馈

官方服务：

资源简介：

CsFEVERv2是一个用于捷克语事实核查的数据集，由捷克技术大学电气工程学院人工智能中心在学士论文中开发。该数据集包含一个原始子集，这是CsFEVER的迭代版本，包含新数据和更好的处理，以及通过NLI模型过滤并优化阈值生成的f1、precision和07子集。wiki_pages子集是2022年8月的处理过的Wikipedia转储，带有正确的revids，用于将数据集中的证据映射到Wikipedia文本。还包括用于训练NLI模型的预处理数据集original_nli、f1_nli、precision_nli和07_nli。原始子集可以通过使用predicted_label和predicted_score字段进行其他阈值过滤来生成其他过滤数据集。

提供机构：

ctu-aic

原始信息汇总

数据集概述：CsFEVERv2

数据集描述

CsFEVERv2 是一个用于捷克语事实核查的数据集，由捷克技术大学电气工程学院人工智能中心开发。该数据集包含多个子集，包括原始数据集及其经过NLI模型过滤和优化阈值处理后的子集（f1, precision, 07），以及用于训练NLI模型的子集（original_nli, f1_nli, precision_nli, 07_nli）。此外，还包括一个处理过的维基百科数据集（wiki_pages），用于映射证据到维基百科文本。

语言

捷克语

数据集结构

数据实例

原始数据集（original）

id: 整数
label: 字符串
predicted_label: 字符串（NLI模型预测的标签）
predicted_score: 整数（预测标签的置信度）
claim: 字符串
evidence: 序列

过滤后的数据集（f1, precision, 07）

id: 整数
label: 字符串
claim: 字符串
evidence: 序列

NLI训练数据集（original_nli, f1_nli, precision_nli, 07_nli）

id: 整数
label: 整数
claim: 字符串
evidence: 字符串

维基百科数据集（wiki_pages）

id: 整数
revid: 整数
url: 字符串
title: 字符串
text: 字符串

数据分割

原始数据集

	train	dev	test
original	118950	7458	7520

过滤后的数据集

	train	dev	test
f1	83438	5445	5328
precision	60828	4288	4236
07	108607	6685	6623

维基百科数据集

	wiki_pages
wiki_pages	825078

5,000+

优质数据集

54 个

任务类型

进入经典数据集