five

X-FACT|多语言事实检查数据集|数据集基准数据集

收藏
github2024-05-21 更新2024-05-31 收录
多语言事实检查
数据集基准
下载链接:
https://github.com/utahnlp/x-fact
下载链接
链接失效反馈
资源简介:
X-FACT是一个新的多语言事实检查基准数据集,旨在通过提供跨语言的事实检查数据来推动多语言事实检查技术的发展。数据集包含了多种语言的事实检查数据,包括训练集、开发集和测试集,以及用于评估的零样本测试数据。

X-FACT is a novel multilingual fact-checking benchmark dataset designed to advance the development of multilingual fact-checking technologies by providing cross-lingual fact-checking data. The dataset encompasses fact-checking data in multiple languages, including training sets, development sets, and test sets, along with zero-shot test data for evaluation purposes.
创建时间:
2021-06-02
原始信息汇总

数据集概述

数据集名称

  • X-FACT

数据集内容

  • 数据文件
    • train.all.tsv:训练数据
    • dev.all.tsv:开发数据
    • test.all.tsv:领域内测试数据
    • ood.tsv:领域外测试数据
    • zeroshot.tsv:零样本评估测试数据
  • 标签映射文件
    • label_maps/ 目录下包含手动创建的每个网站的标签映射
    • master_mapping.tsv:所有可能翻译标签的标签映射
    • factual.ro.txt:factual.ro网站的标签映射

数据集使用

模型训练

  • 训练命令
    • Claim-only 模型:使用 run_xfact.py 脚本,参数包括模型路径、数据目录、最大序列长度等
    • Attn-EA 模型:使用 run_xfact_evidence_attention.py 脚本,参数包括模型路径、数据目录、最大序列长度等

模型评估

  • 评估命令:使用 run_xfact_evidence_attention.py 脚本进行评估,可通过更改 --evaluate_file 参数来评估不同数据集(领域内、领域外、零样本)

引用信息

  • 引用格式

    @inproceedings{gupta2021xfact, title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}}, author={Gupta, Ashim and Srikumar, Vivek}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
    month = jul, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
X-FACT数据集的构建基于多语言事实核查的需求,通过整合来自不同来源的数据,形成了一个包含训练、开发和测试集的综合数据集。数据集的构建过程中,特别注重了标签映射的准确性,确保每个网站的标签能够准确对应到翻译后的英文标签。此外,数据集还包含了零样本评估测试数据,以评估模型在未见过的数据上的表现。
特点
X-FACT数据集的显著特点在于其多语言性和多样性。数据集不仅涵盖了多种语言的事实核查数据,还包含了不同类型的测试数据,如域内测试、域外测试和零样本测试,以全面评估模型的泛化能力。此外,数据集还提供了详细的标签映射文件,便于研究人员进行多语言事实核查任务的研究。
使用方法
使用X-FACT数据集时,首先需要通过Huggingface Datasets库进行访问,并按照提供的安装指南设置环境。数据集的训练和评估可以通过运行提供的Python脚本来完成,支持多种模型训练,如仅声明模型和基于注意力机制的证据聚合模型。评估时,可以通过指定不同的测试文件来评估模型在不同数据集上的表现。
背景与挑战
背景概述
X-FACT数据集是由Ashim Gupta和Vivek Srikumar在2021年创建的,旨在为多语言事实核查提供一个全新的基准。该数据集的发布与ACL 2021会议上的论文《X-FACT: A New Benchmark Dataset for Multilingual Fact Checking》紧密相关,标志着多语言事实核查领域的一个重要里程碑。X-FACT数据集的构建不仅填补了多语言事实核查领域的数据空白,还为研究人员提供了一个标准化的评估平台,推动了该领域的发展。
当前挑战
X-FACT数据集在构建过程中面临了多重挑战。首先,多语言数据的收集和标注是一个复杂且耗时的过程,需要确保不同语言间的翻译准确性和一致性。其次,数据集的多样性要求涵盖不同领域和来源的信息,以确保模型的泛化能力。此外,事实核查任务本身具有高度的主观性和复杂性,如何设计有效的标注方案和评估标准也是一大挑战。最后,数据集的更新和维护需要持续的投入,以应对不断变化的信息环境。
常用场景
经典使用场景
X-FACT数据集在多语言事实核查领域中具有经典应用场景。该数据集通过提供多语言的事实核查数据,使得研究人员能够训练和评估跨语言事实核查模型。例如,研究人员可以使用该数据集训练基于BERT的多语言模型,以识别和验证不同语言中的事实陈述。此外,X-FACT还支持零样本学习和域外测试,这为模型在未见过的语言和领域中的表现提供了评估基准。
解决学术问题
X-FACT数据集解决了多语言事实核查中的关键学术问题。传统的事实核查数据集通常局限于单一语言,而X-FACT通过提供多语言数据,填补了这一空白。这使得研究人员能够探索和解决跨语言事实核查中的挑战,如语言间的语义差异和翻译准确性问题。此外,数据集的零样本学习和域外测试功能,为研究跨语言迁移学习和领域适应性提供了宝贵的资源。
衍生相关工作
X-FACT数据集的发布催生了一系列相关研究工作。例如,基于该数据集的研究已经提出了多种多语言事实核查模型,包括基于BERT的多语言模型和基于注意力机制的证据聚合模型。这些模型不仅在学术界引起了广泛关注,还在实际应用中展示了其有效性。此外,X-FACT数据集还激发了关于跨语言迁移学习和零样本学习的深入研究,推动了多语言自然语言处理领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

数据堂—103,282张驾驶员行为标注数据

103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为)。在标注方面,对人脸72关键点(包括瞳孔)、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务

魔搭社区 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。

github 收录