five

ctu-aic/csfever_v2

收藏
Hugging Face2024-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ctu-aic/csfever_v2
下载链接
链接失效反馈
官方服务:
资源简介:
CsFEVERv2是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心在学士论文中开发。该数据集包含一个原始子集,这是CsFEVER的迭代版本,包含新数据和更好的处理,以及通过NLI模型过滤并优化阈值生成的f1、precision和07子集。wiki_pages子集是2022年8月的处理过的Wikipedia转储,带有正确的revids,用于将数据集中的证据映射到Wikipedia文本。还包括用于训练NLI模型的预处理数据集original_nli、f1_nli、precision_nli和07_nli。原始子集可以通过使用predicted_label和predicted_score字段进行其他阈值过滤来生成其他过滤数据集。

CsFEVERv2是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心在学士论文中开发。该数据集包含一个原始子集,这是CsFEVER的迭代版本,包含新数据和更好的处理,以及通过NLI模型过滤并优化阈值生成的f1、precision和07子集。wiki_pages子集是2022年8月的处理过的Wikipedia转储,带有正确的revids,用于将数据集中的证据映射到Wikipedia文本。还包括用于训练NLI模型的预处理数据集original_nli、f1_nli、precision_nli和07_nli。原始子集可以通过使用predicted_label和predicted_score字段进行其他阈值过滤来生成其他过滤数据集。
提供机构:
ctu-aic
原始信息汇总

数据集概述:CsFEVERv2

数据集描述

CsFEVERv2 是一个用于捷克语事实核查的数据集,由捷克技术大学电气工程学院人工智能中心开发。该数据集包含多个子集,包括原始数据集及其经过NLI模型过滤和优化阈值处理后的子集(f1, precision, 07),以及用于训练NLI模型的子集(original_nli, f1_nli, precision_nli, 07_nli)。此外,还包括一个处理过的维基百科数据集(wiki_pages),用于映射证据到维基百科文本。

语言

  • 捷克语

数据集结构

数据实例

原始数据集(original)

  • id: 整数
  • label: 字符串
  • predicted_label: 字符串(NLI模型预测的标签)
  • predicted_score: 整数(预测标签的置信度)
  • claim: 字符串
  • evidence: 序列

过滤后的数据集(f1, precision, 07)

  • id: 整数
  • label: 字符串
  • claim: 字符串
  • evidence: 序列

NLI训练数据集(original_nli, f1_nli, precision_nli, 07_nli)

  • id: 整数
  • label: 整数
  • claim: 字符串
  • evidence: 字符串

维基百科数据集(wiki_pages)

  • id: 整数
  • revid: 整数
  • url: 字符串
  • title: 字符串
  • text: 字符串

数据分割

原始数据集

train dev test
original 118950 7458 7520

过滤后的数据集

train dev test
f1 83438 5445 5328
precision 60828 4288 4236
07 108607 6685 6623

维基百科数据集

wiki_pages
wiki_pages 825078
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作