five

VERITE

收藏
arXiv2023-10-18 更新2024-07-30 收录
下载链接:
https://github.com/stevejpapad/image-text-verification
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
VERITE数据集是一个用于多模态虚假信息检测的基准,由信息技术研究所和希腊研究与技术中心创建。该数据集包含338个样本,主要用于评估模型在处理图像和文本配对中的虚假信息的能力。VERITE通过排除‘不对称多模态虚假信息’和采用‘模态平衡’策略,有效解决了单模态偏差问题。数据集的创建过程涉及从Snopes和Reuters收集经过事实核查的文章,并经过严格的筛选和处理,确保每个图像和文本配对在真实和误导性标签下各出现一次,迫使模型同时考虑两种模态及其关系。VERITE数据集的应用领域主要集中在提高多模态虚假信息检测的准确性和可靠性,为相关研究提供了一个更为健壮的评估框架。

The VERITE dataset is a benchmark for multimodal disinformation detection, developed by the Institute of Information Technology and the Centre for Research and Technology Hellas. This dataset consists of 338 samples, primarily used to evaluate models' ability to detect disinformation in image-text pairs. VERITE effectively addresses the issue of unimodal bias by excluding asymmetric multimodal disinformation and adopting a modal balancing strategy. The dataset creation process involves collecting fact-checked articles from Snopes and Reuters, followed by rigorous screening and processing to ensure that each image-text pair appears exactly once under both the authentic and misleading labels, forcing models to consider both modalities and their inherent relationships simultaneously. The primary application scenarios of the VERITE dataset focus on improving the accuracy and reliability of multimodal disinformation detection, providing a more robust evaluation framework for relevant research.
提供机构:
信息技术研究所,希腊研究与技术中心
创建时间:
2023-04-27
原始信息汇总

VERITE 数据集概述

数据集简介

VERITE 是一个用于评估细粒度跨模态错误信息检测模型的基准数据集。该数据集包含从 Snopes 和 Reuters 收集的真实世界错误信息实例,通过排除不对称错误信息和采用模态平衡来解决单模态偏差问题。模态平衡意味着图像和标题将出现两次,一次在其真实形式,一次在其误导形式,以确保模型在区分真实信息和错误信息时考虑两种模态。

数据集构成

  • 数据来源:从 Snopes 和 Reuters 的文章以及 Google Images 中收集图像,仅提供图像的 URL。
  • 分类类别:支持三类分类(真实、断章取义、错误标题的图像-标题对),也可用于二分类。
  • 数据规模:收集了 260 篇 Snopes 文章和 78 篇 Reuters 文章,共包含 338 个真实、338 个错误标题和 324 个断章取义的图像-标题对。

数据处理

  • 数据文件:提供处理后的数据集和 CLIP ViT-L/14 的视觉和文本特征,位于 /VERITE 目录下。

  • 图像下载:可通过运行以下代码从提供的 URL 下载图像: python from prepare_datasets import prepare_verite prepare_VERITE(download_images=True)

  • 数据格式:下载后的数据集分为真实、错误标题、断章取义三类实例,最终的 "VERITE.csv" 包含三列 [caption, image_path, label] 和 1000 行。

特征提取

  • CLIP 特征提取:可通过以下代码提取 VERITE 的视觉和文本特征: python from extract_features import extract_CLIP_features extract_CLIP_features(data_path=VERITE/, output_path=VERITE/VERITE_)

数据集用途

该数据集主要用于研究目的,旨在评估和改进跨模态错误信息检测模型的性能。

搜集汇总
数据集介绍
main_image_url
构建方式
VERITE数据集的构建过程基于真实世界的数据,通过排除‘不对称多模态虚假信息’(Asymmetric-MM)并采用‘模态平衡’策略来确保数据集的鲁棒性。具体而言,数据集中的每张图像和每个文本描述都会在真实和误导性配对中各出现一次,从而迫使模型在判断时必须同时考虑两种模态及其关系。此外,数据集还通过引入‘跨模态硬合成错位’(CHASMA)方法生成合成训练数据,以保持合法图像与误导性文本之间的跨模态关系。
特点
VERITE数据集的特点在于其专注于多模态虚假信息检测(MMD),并通过模态平衡和排除不对称多模态虚假信息来有效缓解单模态偏差问题。数据集包含真实世界中的图像-文本对,涵盖了广泛的新闻类别和主题,确保了数据的多样性和代表性。此外,VERITE通过引入CHASMA方法生成的合成数据,进一步增强了模型的训练效果,使其在面对真实世界中的多模态虚假信息时表现更为鲁棒。
使用方法
VERITE数据集的使用方法主要包括将其作为多模态虚假信息检测模型的训练和评估基准。研究人员可以使用VERITE来训练基于Transformer的架构,并通过模态平衡策略确保模型在检测过程中同时考虑图像和文本信息。此外,VERITE还可用于评估模型在真实世界数据上的表现,特别是在处理跨模态关系时的能力。通过结合CHASMA生成的合成数据,研究人员可以进一步提升模型的检测精度,特别是在处理复杂的多模态虚假信息时。
背景与挑战
背景概述
VERITE数据集由Stefanos-Iordanis Papadopoulos等人于2023年提出,旨在解决多模态虚假信息检测(MMD)中的单模态偏差问题。随着社交媒体平台上多媒体内容的普及,多模态虚假信息的传播日益严重,亟需有效的检测方法。VERITE数据集通过引入真实世界数据、排除非对称多模态虚假信息(Asymmetric-MM)以及采用模态平衡策略,提供了一个更为稳健的评估框架。该数据集的创建标志着多模态虚假信息检测领域的一个重要进展,尤其是在解决单模态偏差问题上,为研究者提供了一个可靠的基准。
当前挑战
VERITE数据集面临的挑战主要包括两个方面。首先,多模态虚假信息检测本身具有复杂性,尤其是在图像和文本的联合分析中,如何有效捕捉跨模态关系并避免单模态偏差是一个关键问题。其次,数据集的构建过程中,如何确保模态平衡、排除非对称多模态虚假信息以及生成高质量的合成训练数据(如通过CHASMA方法)也是技术上的难点。这些挑战不仅影响了模型的训练效果,也对评估框架的可靠性和普适性提出了更高的要求。
常用场景
经典使用场景
VERITE数据集主要用于多模态虚假信息检测(MMD)领域的研究,特别是在图像-文本对的多模态信息验证任务中。该数据集通过引入真实世界的数据,排除了‘非对称多模态虚假信息’,并采用‘模态平衡’策略,确保模型在检测虚假信息时能够同时考虑图像和文本两种模态。这使得VERITE成为一个强大的基准,用于评估多模态虚假信息检测模型的性能。
解决学术问题
VERITE数据集解决了多模态虚假信息检测中的一个关键问题——单模态偏差。传统的数据集往往存在对某一模态(如图像或文本)的偏向,导致单模态模型在多模态任务中表现优于多模态模型,从而难以准确评估模型的进展。VERITE通过模态平衡和排除非对称多模态虚假信息,有效缓解了这一问题,为多模态虚假信息检测提供了一个更加公平和可靠的评估框架。
衍生相关工作
VERITE数据集的推出催生了一系列相关研究工作,特别是在多模态虚假信息检测领域。基于VERITE的研究不仅推动了多模态模型的开发,还促进了生成合成训练数据的新方法,如CHASMA(跨模态硬合成错位)。这些方法通过生成具有跨模态关系的合成数据,进一步提升了模型在VERITE上的检测性能。此外,VERITE还为其他多模态任务(如视觉问答、多媒体验证等)提供了新的研究思路和基准。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作