utahnlp/x-fact

Name: utahnlp/x-fact
Creator: utahnlp
Published: 2024-05-21 06:33:31
License: 暂无描述

Hugging Face2024-05-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/utahnlp/x-fact

下载链接

链接失效反馈

官方服务：

资源简介：

X-FACT是一个多语言事实检查数据集，包含25种语言的31,189个简短声明，每个声明附有通过谷歌搜索检索到的五个证据文档。数据集特别设计了两个额外的评估分割：`ood`用于评估模型在训练语言但不同领域数据上的泛化能力，`zeroshot`用于评估模型的跨语言转移能力。

提供机构：

utahnlp

原始信息汇总

数据集概述

名称: X-FACT: Multilingual Fact Checking

许可: MIT

任务类别: 文本分类

语言:

有训练数据: ar, de, es, hi, id, it, ka, pl, pt, ro, sr, ta, tr
仅零样本: az, bn, fa, fr, gu, mr, nl, no, pa, ru, si, sq

大小: 10K<n<100K

数据集内容

描述: X-FACT是一个多语言事实检查数据集，包含25种语言的真实声明。数据集中的每个声明都附有通过谷歌搜索声明语句检索到的五个顶级证据文档。

数据分割:

分割	声明数量	语言数量
train	19079	13
dev	2535	12
test	3826	12
ood	2368	4
zeroshot	3381	12

额外评估分割:

ood: 测量跨域泛化能力，语言在训练数据中出现，但声明来自不同的验证者。
zeroshot: 测量跨语言能力，转移到新语言的能力。

引用信息

@inproceedings{gupta2021xfact, title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}}, author={Gupta, Ashim and Srikumar, Vivek}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
month = jul, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", }

5,000+

优质数据集

54 个

任务类型

进入经典数据集