five

utahnlp/x-fact

收藏
Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/utahnlp/x-fact
下载链接
链接失效反馈
官方服务:
资源简介:
X-FACT是一个多语言事实检查数据集,包含25种语言的31,189个简短声明,每个声明附有通过谷歌搜索检索到的五个证据文档。数据集特别设计了两个额外的评估分割:`ood`用于评估模型在训练语言但不同领域数据上的泛化能力,`zeroshot`用于评估模型的跨语言转移能力。

X-FACT是一个多语言事实检查数据集,包含25种语言的31,189个简短声明,每个声明附有通过谷歌搜索检索到的五个证据文档。数据集特别设计了两个额外的评估分割:`ood`用于评估模型在训练语言但不同领域数据上的泛化能力,`zeroshot`用于评估模型的跨语言转移能力。
提供机构:
utahnlp
原始信息汇总

数据集概述

名称: X-FACT: Multilingual Fact Checking

许可: MIT

任务类别: 文本分类

语言:

  • 有训练数据: ar, de, es, hi, id, it, ka, pl, pt, ro, sr, ta, tr
  • 仅零样本: az, bn, fa, fr, gu, mr, nl, no, pa, ru, si, sq

大小: 10K<n<100K

数据集内容

描述: X-FACT是一个多语言事实检查数据集,包含25种语言的真实声明。数据集中的每个声明都附有通过谷歌搜索声明语句检索到的五个顶级证据文档。

数据分割:

分割 声明数量 语言数量
train 19079 13
dev 2535 12
test 3826 12
ood 2368 4
zeroshot 3381 12

额外评估分割:

  • ood: 测量跨域泛化能力,语言在训练数据中出现,但声明来自不同的验证者。
  • zeroshot: 测量跨语言能力,转移到新语言的能力。

引用信息

@inproceedings{gupta2021xfact, title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}}, author={Gupta, Ashim and Srikumar, Vivek}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
month = jul, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作