ViFactCheck

Name: ViFactCheck
Creator: 信息科学与工程学院，信息技术大学，越南胡志明市国家大学
Published: 2024-12-19 21:41:59
License: 暂无描述

arXiv2024-12-19 更新2024-12-24 收录

下载链接：

https://github.com/QuangDiy/ViFactCheck

下载链接

链接失效反馈

官方服务：

资源简介：

ViFactCheck是首个专门为越南语新闻事实核查设计的公开基准数据集，由越南胡志明市国家大学的信息科学与工程学院创建。该数据集包含7,232条经过严格人工标注的声明-证据对，涵盖12个不同的新闻领域。数据集的创建过程包括数据收集、标注和验证，确保了数据的高质量和可靠性。ViFactCheck旨在解决越南语等低资源语言在事实核查领域的挑战，推动相关技术的研究和应用，提升数字媒体信息的准确性。

ViFactCheck is the first publicly available benchmark dataset specifically tailored for Vietnamese news fact-checking, developed by the School of Information Science and Engineering at Vietnam National University, Ho Chi Minh City. It comprises 7,232 rigorously manually annotated claim-evidence pairs across 12 distinct news domains. The dataset was constructed via three core stages: data collection, annotation and validation, which guarantees its high quality and reliability. ViFactCheck aims to address the challenges faced by low-resource languages such as Vietnamese in the fact-checking domain, advance research and practical applications of related technologies, and improve the accuracy of digital media information.

提供机构：

信息科学与工程学院，信息技术大学，越南胡志明市国家大学

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

ViFactCheck数据集的构建过程经过精心设计，涵盖了数据收集、数据标注和标注验证三个主要阶段。首先，数据集从九个经过授权且广泛阅读的越南在线新闻网站中收集了12个关键领域的新闻文章，确保了数据的广泛性和时效性。随后，通过人工标注的方式，对7,232条新闻中的声明进行了详细的标注，标注过程严格遵循预设的标注指南，确保了数据的高质量和一致性。最后，通过交叉验证和自检等方法，进一步确保了标注的准确性和可靠性，最终实现了0.83的Fleiss Kappa评分，表明标注者之间的高度一致性。

特点

ViFactCheck数据集具有显著的特点，首先，它是首个专门为越南语新闻事实核查设计的多领域基准数据集，涵盖了12个不同的新闻主题，确保了数据的多样性和广泛性。其次，数据集通过人工标注的方式，确保了声明与证据之间的高质量关联，使得数据集在复杂推理任务中表现出色。此外，数据集还通过引入多证据场景，增加了模型的推理难度，从而提升了数据集在事实核查任务中的实用性和挑战性。

使用方法

ViFactCheck数据集可用于多种事实核查任务的模型训练和评估。首先，研究人员可以通过该数据集对预训练语言模型进行微调，以提升其在越南语环境下的事实核查能力。其次，数据集支持零样本学习，允许模型在未见过的数据上进行推理，从而评估其泛化能力。此外，数据集还可用于开发和测试多证据推理模型，帮助模型在复杂场景下进行更精确的事实核查。通过这些方法，ViFactCheck数据集为越南语事实核查技术的研究提供了坚实的基础。

背景与挑战

背景概述

随着数字时代信息传播的加速，事实核查工具的需求日益凸显，尤其是在资源有限的语言如越南语中。为应对这一挑战，Thai-Hoa Tran等人于2024年推出了ViFactCheck数据集，这是首个专门为越南语多领域新闻事实核查设计的公开基准数据集。该数据集包含7,232个人工标注的声明-证据对，涵盖12个不同主题，来源于越南权威在线新闻。通过严格的标注流程，ViFactCheck数据集的Fleiss Kappa评分达到0.83，确保了数据的高质量和可靠性。该数据集的推出不仅为越南语事实核查研究提供了坚实的基础，还通过开源模型和代码的发布，推动了相关领域的技术进步。

当前挑战

ViFactCheck数据集在构建过程中面临多重挑战。首先，越南语作为资源有限的语言，缺乏足够的指导资源来分析其结构和语义，这增加了数据集构建的复杂性。其次，数据集的标注过程需要高度的人工参与，确保每个声明的准确性和可靠性，这对标注人员的专业性和一致性提出了高要求。此外，事实核查任务本身具有高度的复杂性，尤其是在处理多证据场景时，模型需要具备强大的推理能力来整合和验证信息。最后，如何在低资源语言环境中有效利用预训练语言模型进行事实核查，仍是一个亟待解决的技术难题。

常用场景

经典使用场景

ViFactCheck数据集的经典使用场景主要集中在越南语新闻的多领域事实核查任务中。该数据集包含了7,232个人工标注的声明-证据对，涵盖了12个不同的主题领域，适用于训练和评估事实核查模型。通过使用该数据集，研究人员可以对预训练语言模型进行微调，以提高其在越南语环境下的声明验证能力。经典的应用场景包括自动检测新闻文章中的虚假信息、验证社交媒体上的声明，以及为新闻编辑提供自动化的核查工具。

解决学术问题

ViFactCheck数据集解决了越南语环境下事实核查的学术研究问题。由于越南语资源相对匮乏，现有的多语言事实核查模型在处理越南语时表现不佳。ViFactCheck通过提供高质量的人工标注数据，填补了这一空白，使得研究人员能够开发和评估专门针对越南语的事实核查模型。该数据集的引入不仅提升了越南语事实核查的准确性，还为低资源语言的事实核查研究提供了新的基准，推动了该领域的技术进步。

衍生相关工作

ViFactCheck数据集的发布催生了一系列相关研究工作。许多研究者基于该数据集开发了新的模型和方法，进一步提升了越南语事实核查的性能。例如，一些研究通过结合知识图谱和语言模型，增强了模型对复杂声明的推理能力。此外，ViFactCheck还激发了对低资源语言事实核查的更广泛研究，推动了多语言事实核查技术的进步。这些衍生工作不仅丰富了越南语事实核查的研究内容，还为其他低资源语言的事实核查研究提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集