VLDBench

Name: VLDBench
Creator: Vector Institute of AI, Center for Research in Computer Vision, UCF, Toronto Metropolitan University, York University, University of Groningen, Athena Research Centre
Published: 2025-02-17 10:18:47
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11361v1

下载链接

链接失效反馈

官方服务：

资源简介：

VLDBench是由Vector Institute of AI等机构创建的，针对检测网络新闻文章中的虚假信息的一种全面的多模态基准数据集。该数据集包含来自58个新闻源的31,339对新闻文章和视觉样本，涵盖13个不同的类别。数据集通过一个严格的人工审核流程进行筛选和验证，确保了数据的高质量。VLDBench旨在为检测网络多模态内容中的虚假信息提供基准，支持单模态（仅文本）和跨模态（文本和图像）内容的评估。

VLDBench is a comprehensive multimodal benchmark dataset developed by the Vector Institute of AI and other institutions for detecting disinformation in online news articles. It contains 31,339 pairs of news articles and visual samples sourced from 58 news outlets, spanning 13 distinct categories. The dataset has been screened and validated via a rigorous manual review process to guarantee its high data quality. VLDBench aims to provide a standardized benchmark for disinformation detection in online multimodal content, supporting evaluations of both unimodal (text-only) and cross-modal (text and image) content.

提供机构：

Vector Institute of AI, Center for Research in Computer Vision, UCF, Toronto Metropolitan University, York University, University of Groningen, Athena Research Centre

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

VLDBench数据集的构建方法包括从58个多样化的新闻来源收集31,339篇文章和视觉样本，涵盖了13个独特的类别，如国家、商业和金融、国际、娱乐等。数据收集过程遵循了严格的伦理准则，确保知识产权和隐私保护。在质量保证阶段，我们剔除了不完整、低分辨率、重复或与媒体相关的文章。每个文章的第一张图片被选为代表视觉背景。随后，我们使用GPT-4o对每篇文章进行分类，并将其分为13个独特的新闻类别。为了确保可靠性，GPT-4o对每个样本进行了三次评估，以最小化随机差异并解决分类中的潜在平局。此外，我们还组建了一个由22位领域专家组成的团队，他们对GPT-4o的标签和理由进行了系统性的审查，评估其准确性、一致性和与人类判断的相符性。这个过程包括一个严格的协商阶段，以改进标注指南并最终确定标签。评估结果表明，Cohen’s κ为0.78，表明标注者之间存在强烈的相互一致性。

特点

VLDBench数据集的特点是它是一个全面的、由人类验证的多模态基准，用于检测新闻文章中的虚假信息。它是第一个社区驱动的、迭代改进的基准，旨在评估单模态和多模态开源模型，特别关注新闻类别的深度。数据集由58个多样化的新闻来源收集，包含31.3k篇文章-图像对，涵盖了13个独特的类别。此外，数据集还支持二元分类和多模态评估，并与AI治理框架（如欧盟AI法案、NIST指南和MIT AI风险库2024）保持一致。

使用方法

VLDBench数据集的使用方法包括使用它来评估现有的大型语言模型（LLMs）和视觉语言模型（VLMs）的性能。数据集被分为70%的训练集、15%的验证集和15%的测试集，用于指令微调（IFT）。评估过程包括定量和定性评估，包括准确性、精确度、召回率和F1分数等指标。此外，领域专家还验证了模型的预测和理由，以确保与真实世界的虚假信息检测标准相符。VLDBench数据集还用于研究多模态方法的稳健性，包括对抗性攻击和跨模态失配。

背景与挑战

背景概述

随着人工智能生成内容的迅速增长，检测虚假信息变得日益具有挑战性。特别是多模态虚假信息，即包含图像和文本的在线帖子/文章，这些内容设计用于欺骗。虽然现有的AI安全基准主要解决偏见和毒性问题，但多模态虚假信息检测仍然在很大程度上被忽视。为了应对这一挑战，我们提出了视觉语言虚假信息检测基准（VLDBench）——第一个全面的基准，用于检测单模态（仅文本）和多模态（文本和图像）内容的虚假信息，包括31,000篇新闻文章-图像对，涵盖13个不同的类别，用于稳健评估。VLDBench拥有严格的半自动化数据收集流程，22位领域专家投入了300多个小时进行注释，实现了强烈的标注者间一致性（Cohen’s κ = 0.78）。我们对最先进的语言模型（LLMs）和视觉语言模型（VLMs）进行了广泛的评估，表明与单模态模型相比，将文本和视觉线索集成到多模态新闻帖子中可以提高虚假信息检测的准确性5-35%。根据AI治理框架（如欧盟AI法案、NIST指南和MIT AI风险库2024）进行开发，VLDBench有望成为检测在线多模态内容中虚假信息的基准。我们的代码和数据将公开提供。

当前挑战

VLDBench面临的主要挑战包括：1) 虚假信息的快速演变导致2022年之前的数据库过时；2) 大多数数据集缺乏与现代生成AI能力的对齐；3) 依赖预验证的新闻来源可能引入抽样偏差；4) AI辅助注释（通过LLMs/VLMs）可能继承模型偏差和随机性；5) 模型在对抗性攻击下的性能下降；6) 仅关注英语语言限制了其在多语言和文化多样环境中的适用性；7) 对计算资源的需求限制了资源受限研究人员的使用。

常用场景

经典使用场景

VLDBench 数据集作为首个综合性的视觉语言模型虚假信息检测基准，其主要应用场景在于评估和提升大型语言模型（LLMs）和视觉语言模型（VLMs）在检测跨模态（文本和图像）内容中的虚假信息的能力。该数据集包含 31,000 个新闻文章-图像对，跨越 13 个不同的类别，为鲁棒的评估提供了坚实的基础。VLDBench 的一个关键使用场景是训练和测试各种 LLMs 和 VLMs，以评估它们在检测虚假信息方面的性能。通过对文本和视觉线索的整合，VLDBench 在多模态新闻文章中提高了虚假信息检测的准确率，相比单模态模型提升了 5-35%。

解决学术问题

VLDBench 数据集解决了现有 AI 安全基准主要关注偏见和毒性，而多模态虚假信息检测仍然被广泛忽视的问题。该数据集为研究人员提供了一个全面的基准，用于评估和改进 LLMs 和 VLMs 在检测多模态内容中的虚假信息的能力。通过集成文本和视觉线索，VLDBench 显著提高了虚假信息检测的准确率，为学术界提供了一种有效的方法来应对多模态虚假信息检测的挑战。此外，VLDBench 的数据收集和标注过程遵循严格的伦理指南，确保数据质量和标注的准确性，为学术界提供了可靠的数据资源。

衍生相关工作

VLDBench 数据集衍生了一系列相关的经典工作，如 FakeNewsNet 和 Fakeddit 等，这些工作主要关注于虚假信息的检测和识别。VLDBench 的出现为这些经典工作提供了一个更全面和更深入的基准，以评估和改进虚假信息检测模型的性能。此外，VLDBench 还促进了学术界对多模态虚假信息检测的研究，推动了该领域的发展。VLDBench 的出现也激发了更多研究人员对虚假信息检测的兴趣，并促进了相关技术的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集