five

Mocheg|事实检查数据集|多模态信息处理数据集

收藏
arXiv2023-07-07 更新2024-06-21 收录
事实检查
多模态信息处理
下载链接:
https://github.com/VT-NLP/Mocheg
下载链接
链接失效反馈
资源简介:
Mocheg数据集是由弗吉尼亚理工大学的研究人员创建的一个大规模数据集,包含15,601个声明,每个声明都标注了真实性标签和裁决声明。该数据集旨在支持端到端多模态事实检查和解释生成研究,通过检索相关证据(包括文章、图像、视频和推文)并预测真实性标签(支持、反驳或信息不足)来评估声明的真实性。此外,数据集还包括33,880个文本段落和12,112张图像作为证据,用于生成总结和解释推理及裁决过程的声明。Mocheg数据集的应用领域主要集中在自动化事实检查,旨在解决通过多模态信息源自动验证声明真实性的问题。
提供机构:
弗吉尼亚理工大学
创建时间:
2022-05-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
Mocheg数据集的构建基于两个广泛使用的辟谣网站PolitiFact和Snopes,通过开发脚本从这些网站中收集了大量信息,包括15,601条声明及其真实性标签、33,880段文本证据和12,112张图像证据。数据集的构建过程中,使用了Boilerpipe和newspaper工具从网页中提取文本和图像链接,并通过Twitter API收集了部分推文内容。此外,数据集对初始的75个真实性标签进行了归类,最终将其简化为三个类别:支持、反驳和信息不足。
使用方法
Mocheg数据集可用于端到端的多模态事实核查和解释生成任务,包括多模态证据检索、声明验证和解释生成三个子任务。用户可以通过检索与声明相关的文本和图像证据,基于这些证据预测声明的真实性,并生成解释性陈述。数据集提供了训练、开发和测试集,用户可以利用这些数据集训练和评估模型在多模态事实核查任务中的表现。
背景与挑战
背景概述
随着信息时代的到来,虚假信息的传播已成为全球性的公共问题,尤其是在社交媒体和新闻平台中,虚假信息的快速扩散对社会造成了深远的影响。为了应对这一挑战,自动化的多模态事实核查与解释生成技术应运而生。Mocheg数据集由Virginia Tech和Lehigh University的研究团队于2023年创建,旨在支持端到端的多模态事实核查与解释生成任务。该数据集包含了15,601条声明,每条声明均标注了真实性标签和解释性陈述,并附有33,880段文本和12,112张图像作为证据。Mocheg数据集的构建不仅填补了多模态事实核查领域的空白,还为相关研究提供了基准性能评估,推动了该领域的技术进步。
当前挑战
Mocheg数据集的构建与应用面临多重挑战。首先,多模态证据检索任务要求从海量的网络资源中准确提取与声明相关的文本和图像,这一过程涉及复杂的语义匹配和跨模态推理。其次,声明验证任务需要结合文本和图像证据进行深度推理,尤其是在处理跨文档和跨句子的复杂逻辑时,模型的推理能力面临巨大考验。此外,解释生成任务要求模型能够生成连贯且逻辑清晰的解释,这对模型的自然语言生成能力提出了高要求。最后,数据集中的证据来源广泛,部分证据可能存在不一致或缺失,这进一步增加了任务的复杂性。
常用场景
经典使用场景
Mocheg数据集的经典使用场景在于支持端到端的多模态事实核查与解释生成任务。该数据集通过提供大量标注的声明、多模态证据(包括文本、图像和视频)以及相应的真实性标签和解释性陈述,使得研究者能够开发和评估多模态事实核查系统。这些系统能够自动检索相关证据、验证声明的真实性,并生成解释性文本,从而模拟人类事实核查员的工作流程。
解决学术问题
Mocheg数据集解决了当前多模态事实核查研究中的几个关键问题。首先,它填补了多模态事实核查数据集的空白,提供了高质量的人工标注证据和真实性标签,避免了自动生成标签的不可靠性。其次,它强调了生成解释性文本的重要性,使得模型不仅能够预测声明的真实性,还能提供推理过程的透明性。此外,该数据集还解决了证据检索的实际问题,要求模型从大规模的网络资源中自动检索相关证据,而非依赖预先提供的证据。
实际应用
Mocheg数据集在实际应用中具有广泛的潜力,特别是在打击虚假信息和自动事实核查领域。它可以用于开发智能事实核查工具,帮助新闻机构、社交媒体平台和政府机构快速识别和验证网络上的虚假信息。通过结合文本、图像和视频等多模态信息,这些工具能够更准确地判断信息的真实性,并生成易于理解的解释,增强公众对信息可信度的认知。
数据集最近研究
最新研究方向
在多模态事实核查与解释生成领域,Mocheg数据集的最新研究方向主要集中在端到端的多模态事实核查与解释生成任务上。该任务要求系统从大规模的网络资源中自动检索相关证据,预测声明的真实性标签,并生成解释性陈述以总结推理过程。研究者们通过构建Mocheg数据集,探索了多模态证据检索、声明验证和解释生成的基线性能,并发现现有最先进的神经网络架构在该任务上表现不尽如人意。这一研究方向不仅推动了多模态事实核查技术的发展,还为应对日益增长的虚假信息问题提供了新的解决方案。通过结合文本、图像、视频等多种模态的信息,研究者们致力于开发更加准确和可解释的事实核查系统,以应对复杂的信息环境。
相关研究论文
  • 1
    End-to-End Multimodal Fact-Checking and Explanation Generation: A Challenging Dataset and Models弗吉尼亚理工大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录