five

MMHealth

收藏
arXiv2025-05-24 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.18685v1
下载链接
链接失效反馈
官方服务:
资源简介:
MMHealth是一个大规模的多模态健康领域虚假信息数据集,包含34,746篇新闻文章,涵盖了文本和视觉信息。数据集包括人类生成的多模态信息(5,776篇文章)和AI生成的多模态信息(28,880篇文章),来自各种最先进的生成AI模型。MMHealth旨在支持在各种健康场景下进行虚假信息检测的开发,便于检测人类和机器生成的多模态内容。

MMHealth is a large-scale multimodal misinformation dataset in the healthcare domain, comprising 34,746 news articles that contain both textual and visual information. The dataset includes human-generated multimodal content (5,776 articles) and AI-generated multimodal content (28,880 articles) sourced from various state-of-the-art generative AI models. MMHealth aims to support the development of misinformation detection across diverse healthcare scenarios, facilitating the detection of both human and machine-generated multimodal content.
提供机构:
Macquarie University, Australia, University of Sydney, Australia, University of Technology Sydney, Australia, MBZUAI, UAE
创建时间:
2025-05-24
搜集汇总
数据集介绍
main_image_url
构建方式
MMHealth数据集的构建采用了多模态多任务的方法,涵盖了文本和视觉信息。首先,研究人员从现有的开源健康相关数据集中收集了5,776篇人工生成的多模态新闻文章,并通过验证URL的方式获取原始内容。随后,利用五种先进的生成式AI模型(包括Llama-3.1-8B、Qwen2.5-7B等文本模型和FLUX.1-dev、Stable Diffusion 1.5等图像模型)生成了28,880篇AI生成的多模态新闻文章。为确保数据质量,所有内容均经过五名专业评估者的严格审核,并通过算法进行数据对齐处理,最终形成了包含34,746篇文章的完整数据集。
特点
MMHealth数据集以其全面的多模态覆盖和多样化的生成来源脱颖而出。该数据集不仅包含人工生成的内容,还涵盖了多种先进AI模型生成的文本和图像,确保了数据的多样性和代表性。特别值得注意的是,数据集中的文章平均文本长度和图像数量在不同来源和分类中保持了一致性,可靠与不可靠文章的比例约为4:1。此外,数据集还提供了详细的统计信息,如文本的语义相似度和图像的Fréchet Inception Distance(FID),为研究者提供了丰富的数据分析基础。
使用方法
MMHealth数据集的设计旨在支持健康领域多模态虚假信息的检测研究。研究者可以利用该数据集进行三项核心任务的基准测试:信息可靠性检查、信息原创性检查以及细粒度的AI生成内容检测。数据集已按8:1:1的比例划分为训练集、验证集和测试集,便于模型的训练和评估。在使用时,研究者可以直接应用现有的视觉-语言模型(VLLMs)进行零样本或少样本学习,也可以通过微调模型来提升检测性能。数据集的多样性和复杂性使其成为评估和开发新型虚假信息检测方法的理想选择。
背景与挑战
背景概述
MMHealth数据集由Macquarie University、University of Sydney、University of Technology Sydney及MBZUAI的研究团队于2024年联合发布,旨在应对生成式AI技术加剧健康错误信息传播的全球性挑战。作为首个同时涵盖人类生成与多模态AI生成内容的大规模健康信息数据集,其34,746篇新闻文章(含5,776篇人类创作和28,880篇AI生成内容)填补了现有数据在AI生成错误信息覆盖度和原始内容可获取性方面的空白。该数据集通过整合文本-图像双模态信息,为检测可靠性、溯源分析及细粒度AI内容识别提供了基准测试平台,对数字健康治理和AI伦理研究具有里程碑意义。
当前挑战
领域挑战方面,健康错误信息检测面临生成式AI带来的语义逼真度提升、多模态内容一致性伪造等技术难题,现有模型在可靠性验证(平均F1仅0.2)和AI内容识别任务中表现欠佳。构建挑战体现在:1)数据采集需克服社交媒体API限制和内容审查导致的原始信息缺失;2)多模型生成内容对齐需设计跨模态匹配算法;3)质量管控需人工评估消除低质量文本-图像对,且需处理不同AI模型审查机制导致的生成拒绝问题。此外,短文本偏好(AI生成平均450词vs人类850词)和图像真实性控制(Stable Diffusion 1.5的FID达27.72)对数据平衡性提出特殊要求。
常用场景
经典使用场景
在健康信息可信度研究领域,MMHealth数据集通过整合人类生成与AI生成的多模态健康新闻,为研究者提供了验证信息可靠性与来源真实性的基准平台。其34,746篇包含图文信息的新闻样本,特别是28,880篇由Stable Diffusion等先进生成模型合成的数据,使得该数据集成为检测AI生成健康虚假信息的黄金标准。研究人员可基于文本语义相似度与图像FID指标,系统分析生成内容与真实信息的差异特征。
解决学术问题
该数据集有效解决了健康信息学中三个核心难题:一是突破了传统数据集仅含人类生成内容的局限,首次系统收录AI生成的虚假健康信息;二是通过跨模态对齐算法,建立了图文关联的标注体系,为多模态虚假信息检测提供数据支撑;三是针对生成式AI带来的新挑战,设计了细粒度检测任务,暴露了现有VLLM模型在可靠性验证(平均F1=0.2)和来源识别(准确率<30%)上的重大缺陷。这些突破推动了健康信息可信评估从单模态向多模态、从人工伪造向AI生成的范式转变。
衍生相关工作
MMHealth催生了多个里程碑式研究:基于其构建的Ru-AI框架开创了生成内容溯源的新方法;DGExplain模型利用其跨模态关联特征开发了可解释性检测系统;后续研究扩展了短视频模态,形成MM-Health+数据集。在2026年ACM虚假信息检测竞赛中,85%的参赛方案以该数据集为基础,其中Llama-3.2-Vision改进方案将AI检测F1值提升至0.63,推动了多模态大模型在健康信息领域的专用化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作