utahnlp/x-fact
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/utahnlp/x-fact
下载链接
链接失效反馈官方服务:
资源简介:
X-FACT是一个多语言事实检查数据集,包含25种语言的31,189个简短声明,每个声明附有通过谷歌搜索检索到的五个证据文档。数据集特别设计了两个额外的评估分割:`ood`用于评估模型在训练语言但不同领域数据上的泛化能力,`zeroshot`用于评估模型的跨语言转移能力。
X-FACT是一个多语言事实检查数据集,包含25种语言的31,189个简短声明,每个声明附有通过谷歌搜索检索到的五个证据文档。数据集特别设计了两个额外的评估分割:`ood`用于评估模型在训练语言但不同领域数据上的泛化能力,`zeroshot`用于评估模型的跨语言转移能力。
提供机构:
utahnlp
原始信息汇总
数据集概述
名称: X-FACT: Multilingual Fact Checking
许可: MIT
任务类别: 文本分类
语言:
- 有训练数据:
ar,de,es,hi,id,it,ka,pl,pt,ro,sr,ta,tr - 仅零样本:
az,bn,fa,fr,gu,mr,nl,no,pa,ru,si,sq
大小: 10K<n<100K
数据集内容
描述: X-FACT是一个多语言事实检查数据集,包含25种语言的真实声明。数据集中的每个声明都附有通过谷歌搜索声明语句检索到的五个顶级证据文档。
数据分割:
| 分割 | 声明数量 | 语言数量 |
|---|---|---|
| train | 19079 | 13 |
| dev | 2535 | 12 |
| test | 3826 | 12 |
| ood | 2368 | 4 |
| zeroshot | 3381 | 12 |
额外评估分割:
ood: 测量跨域泛化能力,语言在训练数据中出现,但声明来自不同的验证者。zeroshot: 测量跨语言能力,转移到新语言的能力。
引用信息
@inproceedings{gupta2021xfact,
title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}},
author={Gupta, Ashim and Srikumar, Vivek},
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
}



