ctu-aic/csfever_v2
收藏Hugging Face2024-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ctu-aic/csfever_v2
下载链接
链接失效反馈官方服务:
资源简介:
CsFEVERv2是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心在学士论文中开发。该数据集包含一个原始子集,这是CsFEVER的迭代版本,包含新数据和更好的处理,以及通过NLI模型过滤并优化阈值生成的f1、precision和07子集。wiki_pages子集是2022年8月的处理过的Wikipedia转储,带有正确的revids,用于将数据集中的证据映射到Wikipedia文本。还包括用于训练NLI模型的预处理数据集original_nli、f1_nli、precision_nli和07_nli。原始子集可以通过使用predicted_label和predicted_score字段进行其他阈值过滤来生成其他过滤数据集。
CsFEVERv2是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心在学士论文中开发。该数据集包含一个原始子集,这是CsFEVER的迭代版本,包含新数据和更好的处理,以及通过NLI模型过滤并优化阈值生成的f1、precision和07子集。wiki_pages子集是2022年8月的处理过的Wikipedia转储,带有正确的revids,用于将数据集中的证据映射到Wikipedia文本。还包括用于训练NLI模型的预处理数据集original_nli、f1_nli、precision_nli和07_nli。原始子集可以通过使用predicted_label和predicted_score字段进行其他阈值过滤来生成其他过滤数据集。
提供机构:
ctu-aic
原始信息汇总
数据集概述:CsFEVERv2
数据集描述
CsFEVERv2 是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心开发。该数据集包含多个子集,包括原始数据集及其经过NLI模型过滤和优化阈值处理后的子集(f1, precision, 07),以及用于训练NLI模型的子集(original_nli, f1_nli, precision_nli, 07_nli)。此外,还包括一个处理过的维基百科数据集(wiki_pages),用于映射证据到维基百科文本。
语言
- 捷克语
数据集结构
数据实例
原始数据集(original)
id: 整数label: 字符串predicted_label: 字符串(NLI模型预测的标签)predicted_score: 整数(预测标签的置信度)claim: 字符串evidence: 序列
过滤后的数据集(f1, precision, 07)
id: 整数label: 字符串claim: 字符串evidence: 序列
NLI训练数据集(original_nli, f1_nli, precision_nli, 07_nli)
id: 整数label: 整数claim: 字符串evidence: 字符串
维基百科数据集(wiki_pages)
id: 整数revid: 整数url: 字符串title: 字符串text: 字符串
数据分割
原始数据集
| train | dev | test | |
|---|---|---|---|
| original | 118950 | 7458 | 7520 |
过滤后的数据集
| train | dev | test | |
|---|---|---|---|
| f1 | 83438 | 5445 | 5328 |
| precision | 60828 | 4288 | 4236 |
| 07 | 108607 | 6685 | 6623 |
维基百科数据集
| wiki_pages | |
|---|---|
| wiki_pages | 825078 |



