X-FACT

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/utahnlp/x-fact

下载链接

链接失效反馈

官方服务：

资源简介：

X-FACT是一个新的多语言事实检查基准数据集，旨在通过提供跨语言的事实检查数据来推动多语言事实检查技术的发展。数据集包含了多种语言的事实检查数据，包括训练集、开发集和测试集，以及用于评估的零样本测试数据。

X-FACT is a novel multilingual fact-checking benchmark dataset designed to advance the development of multilingual fact-checking technologies by providing cross-lingual fact-checking data. The dataset encompasses fact-checking data in multiple languages, including training sets, development sets, and test sets, along with zero-shot test data for evaluation purposes.

创建时间：

2021-06-02

原始信息汇总

数据集概述

数据集名称

X-FACT

数据集内容

数据文件：
- train.all.tsv：训练数据
- dev.all.tsv：开发数据
- test.all.tsv：领域内测试数据
- ood.tsv：领域外测试数据
- zeroshot.tsv：零样本评估测试数据
标签映射文件：
- label_maps/ 目录下包含手动创建的每个网站的标签映射
- master_mapping.tsv：所有可能翻译标签的标签映射
- factual.ro.txt：factual.ro网站的标签映射

数据集使用

访问方式：可通过 datasets 库在 https://huggingface.co/datasets/utahnlp/x-fact 访问

模型训练

训练命令：
- Claim-only 模型：使用 run_xfact.py 脚本，参数包括模型路径、数据目录、最大序列长度等
- Attn-EA 模型：使用 run_xfact_evidence_attention.py 脚本，参数包括模型路径、数据目录、最大序列长度等

模型评估

评估命令：使用 run_xfact_evidence_attention.py 脚本进行评估，可通过更改 --evaluate_file 参数来评估不同数据集（领域内、领域外、零样本）

引用信息

引用格式：

@inproceedings{gupta2021xfact, title={{X-FACT: A New Benchmark Dataset for Multilingual Fact Checking}}, author={Gupta, Ashim and Srikumar, Vivek}, booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics",
month = jul, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", }

搜集汇总

数据集介绍

构建方式

X-FACT数据集的构建基于多语言事实核查的需求，通过整合来自不同来源的数据，形成了一个包含训练、开发和测试集的综合数据集。数据集的构建过程中，特别注重了标签映射的准确性，确保每个网站的标签能够准确对应到翻译后的英文标签。此外，数据集还包含了零样本评估测试数据，以评估模型在未见过的数据上的表现。

特点

X-FACT数据集的显著特点在于其多语言性和多样性。数据集不仅涵盖了多种语言的事实核查数据，还包含了不同类型的测试数据，如域内测试、域外测试和零样本测试，以全面评估模型的泛化能力。此外，数据集还提供了详细的标签映射文件，便于研究人员进行多语言事实核查任务的研究。

使用方法

使用X-FACT数据集时，首先需要通过Huggingface Datasets库进行访问，并按照提供的安装指南设置环境。数据集的训练和评估可以通过运行提供的Python脚本来完成，支持多种模型训练，如仅声明模型和基于注意力机制的证据聚合模型。评估时，可以通过指定不同的测试文件来评估模型在不同数据集上的表现。

背景与挑战

背景概述

X-FACT数据集是由Ashim Gupta和Vivek Srikumar在2021年创建的，旨在为多语言事实核查提供一个全新的基准。该数据集的发布与ACL 2021会议上的论文《X-FACT: A New Benchmark Dataset for Multilingual Fact Checking》紧密相关，标志着多语言事实核查领域的一个重要里程碑。X-FACT数据集的构建不仅填补了多语言事实核查领域的数据空白，还为研究人员提供了一个标准化的评估平台，推动了该领域的发展。

当前挑战

X-FACT数据集在构建过程中面临了多重挑战。首先，多语言数据的收集和标注是一个复杂且耗时的过程，需要确保不同语言间的翻译准确性和一致性。其次，数据集的多样性要求涵盖不同领域和来源的信息，以确保模型的泛化能力。此外，事实核查任务本身具有高度的主观性和复杂性，如何设计有效的标注方案和评估标准也是一大挑战。最后，数据集的更新和维护需要持续的投入，以应对不断变化的信息环境。

常用场景

经典使用场景

X-FACT数据集在多语言事实核查领域中具有经典应用场景。该数据集通过提供多语言的事实核查数据，使得研究人员能够训练和评估跨语言事实核查模型。例如，研究人员可以使用该数据集训练基于BERT的多语言模型，以识别和验证不同语言中的事实陈述。此外，X-FACT还支持零样本学习和域外测试，这为模型在未见过的语言和领域中的表现提供了评估基准。

解决学术问题

X-FACT数据集解决了多语言事实核查中的关键学术问题。传统的事实核查数据集通常局限于单一语言，而X-FACT通过提供多语言数据，填补了这一空白。这使得研究人员能够探索和解决跨语言事实核查中的挑战，如语言间的语义差异和翻译准确性问题。此外，数据集的零样本学习和域外测试功能，为研究跨语言迁移学习和领域适应性提供了宝贵的资源。

衍生相关工作

X-FACT数据集的发布催生了一系列相关研究工作。例如，基于该数据集的研究已经提出了多种多语言事实核查模型，包括基于BERT的多语言模型和基于注意力机制的证据聚合模型。这些模型不仅在学术界引起了广泛关注，还在实际应用中展示了其有效性。此外，X-FACT数据集还激发了关于跨语言迁移学习和零样本学习的深入研究，推动了多语言自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集