VLDBench

github2025-03-13 更新2025-03-14 收录

下载链接：

https://github.com/VectorInstitute/VLDBench

下载链接

链接失效反馈

官方服务：

资源简介：

VLDBench是一个大规模的多模态虚假信息检测基准测试，包含超过31,000个新闻文章-图像对，涵盖13个独特的新闻类别，由22位领域专家进行了300多小时的人工验证。数据集从58个新闻来源（如CNN、纽约时报、华尔街日报）中精选，采用人机协作注释，Cohen’s κ为0.82。该数据集支持单模态（仅文本）和多模态（文本+图像）分类，并用于评估顶级语言模型和视觉语言模型。

VLDBench is a large-scale multimodal disinformation detection benchmark comprising over 31,000 news article-image pairs covering 13 distinct news categories. It underwent more than 300 hours of manual validation conducted by 22 domain experts. The dataset is curated from 58 news sources including CNN, The New York Times, and The Wall Street Journal, and adopts human-machine collaborative annotation with a Cohen’s κ score of 0.82. This benchmark supports both unimodal (text-only) and multimodal (text+image) classification tasks, and is utilized to evaluate state-of-the-art language models and vision-language models.

创建时间：

2025-02-14

原始信息汇总

VLDBench 数据集概述

数据集简介

VLDBench是一个用于评估语言模型（LLMs）和视觉语言模型（VLMs）在多模态虚假信息检测上的基准数据集。它是目前最大的经过人工验证的多模态虚假信息检测基准。

关键特征

包含31,000+新闻文章-图像对
涵盖13个独特的新闻类别
由22个领域专家进行300+小时的人工验证
支持文本和图像的单一模态和混合模态分类

数据集详情

数据来源：从58个新闻源（如CNN、纽约时报、华尔街日报等）精选
注释方式：人机协作注释，Cohen’s κ系数为0.82
模型基准：评估了19个最先进的模型，包括9个语言模型和10个视觉语言模型

基准测试结果

多模态模型在整合文本和图像时，比单一模态模型准确率高5-15%
微调后的模型性能优于零样本学习方法
对抗性攻击显著降低了模型性能

数据集获取

VLDBench数据集可在Hugging Face上获取：VLDBench on Hugging Face

参考文献

在使用VLDBench的研究中，请引用以下信息：

bibtex @misc{raza2025vldbenchvisionlanguagemodels, title={VLDBench: Vision Language Models Disinformation Detection Benchmark}, author={Shaina Raza and Ashmal Vayani and Aditya Jain and Aravind Narayanan and Vahid Reza Khazaie and Syed Raza Bashir and Elham Dolatabadi and Gias Uddin and Christos Emmanouilidis and Rizwan Qureshi and Mubarak Shah}, year={2025}, eprint={2502.11361}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.11361}, }

联系方式

如有问题，请联系Shaina Raza：Shaina Raza

搜集汇总

数据集介绍

构建方式

VLDBench 数据集的构建，始于对58个多元化新闻来源的精挑细选，涵盖CNN、NYT、华尔街日报等知名媒体。通过人类与AI的协作标注，实现了高度准确的数据标注，Cohen’s κ系数高达0.82。该数据集包含了31000余对新闻文章与图片，横跨13个独特的新闻类别，经过22位领域专家300余小时的人工验证，旨在为语言模型和视觉语言模型的多模态虚假信息检测提供全面的评估平台。

特点

VLDBench 数据集以其规模宏大和综合性强而独树一帜，是迄今为止最大的人类验证多模态虚假信息检测基准。它不仅支持单模态（仅文本）和双模态（文本+图像）分类，还提供了对顶级语言模型和视觉语言模型的基准测试。数据集的构建特别强调了多模态模型在整合文本与图像信息时的性能优势，为研究提供了宝贵的资源。

使用方法

使用VLDBench数据集，研究者可以访问Hugging Face平台上的资源，进行模型训练和评估。数据集支持对最新语言模型和视觉语言模型的基准测试，包括微调后模型的性能提升和对抗性攻击下的鲁棒性测试。用户可以依据数据集中的标注和评估流程，开展相关研究，推动AI在虚假信息检测领域的发展。

背景与挑战

背景概述

随着生成式人工智能在塑造数字叙事中作用的日益增强，检测虚假信息变得比以往任何时候都更为关键。VLDBench作为迄今为止最大且最全面的人工验证多模态虚假信息检测基准，旨在评估语言模型（LLMs）和视觉-语言模型（VLMs）在多模态虚假信息检测方面的性能。该数据集由22位领域专家耗时300多小时进行人工验证，涵盖了来自58个新闻来源的31000多对新闻文章与图片，涉及13个独特的新闻类别。

当前挑战

VLDBench面临的挑战主要在于多模态虚假信息的检测，这要求模型能够同时理解和分析文本和图像信息。构建过程中遇到的挑战包括确保人工标注的高一致性（Cohen’s κ = 0.82），以及模型在面对对抗性攻击时的鲁棒性。研究还发现，多模态模型在整合文本和图像信息时，比单一模态模型具有5-15%的准确度提升，而微调后的模型性能也优于零样本学习方法。此外，对抗性攻击显著降低了模型的性能，这提示了在虚假信息检测中模型可能存在的安全隐患。

常用场景

经典使用场景

在当前数字化叙事塑造中，生成式人工智能的影响日益显著，因此，检测虚假信息变得尤为重要。VLDBench作为最大且最全面的人类验证多模态虚假信息检测基准，旨在评估语言模型和视觉语言模型在多模态虚假信息检测方面的性能。其经典使用场景在于，通过整合文本和图像信息，为模型提供全面的数据支持，以训练和评估其在多模态环境下的虚假信息检测能力。

衍生相关工作

VLDBench的发布促进了相关领域的研究，衍生出了一系列经典工作。这些工作不仅包括对现有模型的基准测试和性能比较，还涉及对新算法和模型的探索，以及对抗性攻击和模型鲁棒性的研究，进一步推动了人工智能在虚假信息检测领域的应用和发展。

数据集最近研究