X-FACT|多语言事实检查数据集|数据集基准数据集
收藏数据集概述
数据集名称
- X-FACT
数据集内容
- 数据文件:
train.all.tsv
:训练数据dev.all.tsv
:开发数据test.all.tsv
:领域内测试数据ood.tsv
:领域外测试数据zeroshot.tsv
:零样本评估测试数据
- 标签映射文件:
label_maps/
目录下包含手动创建的每个网站的标签映射master_mapping.tsv
:所有可能翻译标签的标签映射factual.ro.txt
:factual.ro网站的标签映射
数据集使用
- 访问方式:可通过
datasets
库在 https://huggingface.co/datasets/utahnlp/x-fact 访问
模型训练
- 训练命令:
- Claim-only 模型:使用
run_xfact.py
脚本,参数包括模型路径、数据目录、最大序列长度等 - Attn-EA 模型:使用
run_xfact_evidence_attention.py
脚本,参数包括模型路径、数据目录、最大序列长度等
- Claim-only 模型:使用
模型评估
- 评估命令:使用
run_xfact_evidence_attention.py
脚本进行评估,可通过更改--evaluate_file
参数来评估不同数据集(领域内、领域外、零样本)
引用信息
-
引用格式:
@inproceedings{gupta2021xfact, title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}}, author={Gupta, Ashim and Srikumar, Vivek}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
month = jul, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
数据堂—103,282张驾驶员行为标注数据
103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为)。在标注方面,对人脸72关键点(包括瞳孔)、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务
魔搭社区 收录
Breast-Caner-Detection Dataset
该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。
github 收录