Mocheg

Name: Mocheg
Creator: 弗吉尼亚理工大学
Published: 2023-07-07 05:22:45
License: 暂无描述

arXiv2023-07-07 更新2024-06-21 收录

下载链接：

https://github.com/VT-NLP/Mocheg

下载链接

链接失效反馈

官方服务：

资源简介：

Mocheg数据集是由弗吉尼亚理工大学的研究人员创建的一个大规模数据集，包含15,601个声明，每个声明都标注了真实性标签和裁决声明。该数据集旨在支持端到端多模态事实检查和解释生成研究，通过检索相关证据（包括文章、图像、视频和推文）并预测真实性标签（支持、反驳或信息不足）来评估声明的真实性。此外，数据集还包括33,880个文本段落和12,112张图像作为证据，用于生成总结和解释推理及裁决过程的声明。Mocheg数据集的应用领域主要集中在自动化事实检查，旨在解决通过多模态信息源自动验证声明真实性的问题。

The Mocheg dataset is a large-scale dataset created by researchers at Virginia Tech, containing 15,601 claims, each annotated with a veracity label and a ruling statement. This dataset aims to support end-to-end multimodal fact-checking and explanation generation research, where the authenticity of claims is evaluated by retrieving relevant evidence including articles, images, videos, and tweets, and predicting veracity labels such as supporting, refuting, or insufficient information. Additionally, the dataset includes 33,880 text passages and 12,112 images as evidence for generating summaries and explanations that elaborate on the reasoning and ruling processes for the claims. The main application area of the Mocheg dataset is automated fact-checking, which targets the problem of automatically verifying the authenticity of claims through multimodal information sources.

提供机构：

弗吉尼亚理工大学

创建时间：

2022-05-25

搜集汇总

数据集介绍

构建方式

Mocheg数据集的构建基于两个广泛使用的辟谣网站PolitiFact和Snopes，通过开发脚本从这些网站中收集了大量信息，包括15,601条声明及其真实性标签、33,880段文本证据和12,112张图像证据。数据集的构建过程中，使用了Boilerpipe和newspaper工具从网页中提取文本和图像链接，并通过Twitter API收集了部分推文内容。此外，数据集对初始的75个真实性标签进行了归类，最终将其简化为三个类别：支持、反驳和信息不足。

使用方法

Mocheg数据集可用于端到端的多模态事实核查和解释生成任务，包括多模态证据检索、声明验证和解释生成三个子任务。用户可以通过检索与声明相关的文本和图像证据，基于这些证据预测声明的真实性，并生成解释性陈述。数据集提供了训练、开发和测试集，用户可以利用这些数据集训练和评估模型在多模态事实核查任务中的表现。

背景与挑战

背景概述

随着信息时代的到来，虚假信息的传播已成为全球性的公共问题，尤其是在社交媒体和新闻平台中，虚假信息的快速扩散对社会造成了深远的影响。为了应对这一挑战，自动化的多模态事实核查与解释生成技术应运而生。Mocheg数据集由Virginia Tech和Lehigh University的研究团队于2023年创建，旨在支持端到端的多模态事实核查与解释生成任务。该数据集包含了15,601条声明，每条声明均标注了真实性标签和解释性陈述，并附有33,880段文本和12,112张图像作为证据。Mocheg数据集的构建不仅填补了多模态事实核查领域的空白，还为相关研究提供了基准性能评估，推动了该领域的技术进步。

当前挑战

Mocheg数据集的构建与应用面临多重挑战。首先，多模态证据检索任务要求从海量的网络资源中准确提取与声明相关的文本和图像，这一过程涉及复杂的语义匹配和跨模态推理。其次，声明验证任务需要结合文本和图像证据进行深度推理，尤其是在处理跨文档和跨句子的复杂逻辑时，模型的推理能力面临巨大考验。此外，解释生成任务要求模型能够生成连贯且逻辑清晰的解释，这对模型的自然语言生成能力提出了高要求。最后，数据集中的证据来源广泛，部分证据可能存在不一致或缺失，这进一步增加了任务的复杂性。

常用场景

经典使用场景

Mocheg数据集的经典使用场景在于支持端到端的多模态事实核查与解释生成任务。该数据集通过提供大量标注的声明、多模态证据（包括文本、图像和视频）以及相应的真实性标签和解释性陈述，使得研究者能够开发和评估多模态事实核查系统。这些系统能够自动检索相关证据、验证声明的真实性，并生成解释性文本，从而模拟人类事实核查员的工作流程。

解决学术问题

Mocheg数据集解决了当前多模态事实核查研究中的几个关键问题。首先，它填补了多模态事实核查数据集的空白，提供了高质量的人工标注证据和真实性标签，避免了自动生成标签的不可靠性。其次，它强调了生成解释性文本的重要性，使得模型不仅能够预测声明的真实性，还能提供推理过程的透明性。此外，该数据集还解决了证据检索的实际问题，要求模型从大规模的网络资源中自动检索相关证据，而非依赖预先提供的证据。

实际应用

Mocheg数据集在实际应用中具有广泛的潜力，特别是在打击虚假信息和自动事实核查领域。它可以用于开发智能事实核查工具，帮助新闻机构、社交媒体平台和政府机构快速识别和验证网络上的虚假信息。通过结合文本、图像和视频等多模态信息，这些工具能够更准确地判断信息的真实性，并生成易于理解的解释，增强公众对信息可信度的认知。

数据集最近研究