ViFactCheck

github2025-03-22 更新2025-03-23 收录

下载链接：

https://github.com/luanntd/Vietnamese-Factual-Error-Correction

下载链接

链接失效反馈

官方服务：

资源简介：

ViFactCheck是第一个公开的越南语事实核查基准数据集，专门为越南语事实核查设计，包含7,232个人工标注的声明-证据对，涵盖了12个不同的主题。

ViFactCheck is the first publicly available Vietnamese fact-checking benchmark dataset, specifically designed for Vietnamese fact-checking tasks, comprising 7,232 manually annotated claim-evidence pairs and covering 12 distinct topics.

创建时间：

2025-03-22

原始信息汇总

越南事实错误纠正数据集概述

数据集背景

任务：事实错误纠正（Factual Error Correction, FEC）是自然语言处理中的关键任务，旨在检测和纠正文本内容中的事实不一致性。
语言：尽管在英语方面取得了显著进展，但越南语的FEC任务仍因缺乏标注数据集和定制方法而未被充分探索。
项目：本项目基于论文《Zero-shot Faithful Factual Error Correction》提出了一种新的越南语FEC方法，是该任务在越南语中的初步尝试。

数据集详情

数据集名称：ViFactCheck
数据集描述：ViFactCheck是首个专门为越南语事实核查设计的公开基准数据集，包含7,232个人工标注的声明-证据对，涵盖12个不同主题。
数据集来源：数据集来源于越南知名在线新闻网站。
数据集用途：该数据集被重新用于事实错误纠正任务，剔除了信息不足的声明，并保留了所有被支持或反驳的声明。
数据集特征：
- Statement：输入声明
- Context：完整证据
- Topic：证据主题
- Author：新闻来源
- Url：在线新闻链接
- Evidence：检索证据
- Label：输入声明的标签

数据集获取

数据集地址：ViFactCheck-Dataset

使用方法

加载模型和数据集： python from utils.dataset import ViFactCheck from model.vi_zerofec import Vi_ZeroFEC

加载模型

corrector = Vi_ZeroFEC()

加载数据集

vifactcheck = ViFactCheck("dataset_url") dataset = vifactcheck.get_all()
处理单个样本： python sample = { evidence: Giải trình sau đó, về quy định sở hữu nhà chung cư như dự thảo, Bộ trưởng Bộ Xây dựng ..., input_claim: Khi chung cư bị tiêu hủy thì các giấy tờ sở hữu chung cư vẫn còn hiệu lực., label: Refuted } output = corrector.correct(sample)
批量处理： python samples = dataset[0:500] outputs = corrector.batch_correct(samples, "save_dir")

人类评估

评估过程：评估过程分为三轮，每轮结束后计算Cohen’s Kappa，并根据需要修订指南。
沟通：评估过程中保持频繁沟通，解答问题并解决不匹配问题。

贡献者

搜集汇总

数据集介绍

构建方式

ViFactCheck数据集的构建基于越南语的事实错误校正任务，旨在填补越南语领域缺乏标注数据集的空白。该数据集从越南知名在线新闻中收集了7,232对人工标注的声明-证据组合，涵盖12个多样化主题。通过筛选出信息不足的声明，并保留所有被支持或反驳的声明，数据集被重新用于事实错误校正任务。数据集的构建过程严格遵循多轮人工标注流程，并通过Cohen’s Kappa系数确保标注一致性。

特点

ViFactCheck数据集的特点在于其专注于越南语的事实错误校正任务，提供了丰富的声明-证据对，涵盖了广泛的新闻主题。每个样本包含声明、完整证据、主题、新闻来源、URL、检索证据以及声明标签。数据集的设计不仅支持单样本处理，还支持批量处理，适用于不同规模的研究需求。此外，数据集的多样性和高质量标注使其成为越南语自然语言处理领域的重要资源。

使用方法

使用ViFactCheck数据集时，首先需要加载模型和数据集。通过调用`ViFactCheck`类加载数据集，并使用`Vi_ZeroFEC`类初始化校正模型。用户可以选择处理单个样本或批量处理多个样本。单个样本的处理通过提供声明、证据和标签的字典格式输入，而批量处理则通过指定样本范围和保存目录实现。所有操作均通过`main.py`脚本进行，确保流程的简洁性和可重复性。

背景与挑战

背景概述

ViFactCheck数据集是首个专门为越南语事实核查任务设计的公开基准数据集，发布于2023年。该数据集由越南多领域在线新闻中提取的7,232对人工标注的声明-证据对组成，涵盖12个多样化主题。其核心研究问题在于解决越南语文本中的事实错误检测与纠正问题，填补了低资源语言在自然语言处理领域中的空白。该数据集的创建由越南研究人员主导，基于ACL 2023论文《Zero-shot Faithful Factual Error Correction》的研究框架，旨在推动越南语事实错误纠正系统的发展，并为相关领域的研究提供了重要的数据支持。

当前挑战

ViFactCheck数据集在构建与应用过程中面临多重挑战。首先，越南语作为低资源语言，缺乏足够的标注数据和成熟的模型支持，导致事实错误纠正任务的研究进展缓慢。其次，数据集的构建依赖于人工标注，标注过程中需要处理复杂的声明-证据对，确保标注的一致性与准确性，这对标注人员的专业素养提出了较高要求。此外，零样本方法的应用虽然减少了对训练数据的依赖，但其多组件架构导致推理时间较长且内存消耗较高，限制了其在实时场景中的应用。这些挑战共同构成了越南语事实错误纠正领域的研究瓶颈。

常用场景

经典使用场景

ViFactCheck数据集在自然语言处理领域中的经典使用场景主要集中在越南语的事实错误检测与纠正任务上。该数据集通过提供大量标注的越南语新闻文章中的声明-证据对，为研究者提供了一个基准平台，用于开发和测试针对越南语的事实错误纠正模型。这种场景特别适用于那些致力于提升低资源语言处理能力的研究，尤其是在缺乏足够标注数据的语言环境中。

实际应用

在实际应用中，ViFactCheck数据集可以广泛应用于新闻媒体、社交媒体内容审核以及教育领域。例如，新闻机构可以利用该数据集训练模型，自动检测和纠正新闻报道中的事实错误，从而提高新闻的准确性和可信度。此外，社交媒体平台也可以利用该数据集来识别和纠正用户发布内容中的错误信息，减少虚假信息的传播。教育领域则可以通过该数据集开发教学工具，帮助学生识别和纠正文本中的事实错误。

衍生相关工作

ViFactCheck数据集的发布催生了一系列相关研究工作，特别是在越南语事实错误纠正领域。基于该数据集，研究者们开发了多种零样本学习方法，如使用Mixtral-8x7B-Instruct-v0.1和PhoBERT等模型进行声明生成和纠正评分。这些工作不仅提升了越南语事实错误纠正的准确性，还为其他低资源语言的事实错误纠正研究提供了新的思路和方法。此外，该数据集还促进了跨语言事实错误纠正技术的发展，推动了多语言自然语言处理研究的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集