Med-MMHL

Name: Med-MMHL
Creator: 弗吉尼亚理工大学
Published: 2023-06-15 13:59:11
License: 暂无描述

arXiv2023-06-15 更新2024-06-21 收录

下载链接：

https://github.com/styxsys0927/Med-MMHL

下载链接

链接失效反馈

官方服务：

资源简介：

Med-MMHL是由弗吉尼亚理工大学创建的一个多模态医疗领域错误信息检测数据集，旨在解决现有数据集忽视视觉信息、仅关注COVID-19相关错误信息以及忽略大型语言模型生成错误信息的问题。该数据集不仅包含人为生成的错误信息，还涵盖了如ChatGPT等大型语言模型生成的错误信息，涉及15种疾病，数据来源于新闻和推文。创建过程中，通过爬取文本和相关图像，确保了数据的多模态性。该数据集的应用领域广泛，旨在提升医疗领域错误信息的检测能力，特别是在区分人为和语言模型生成的错误信息方面。

Med-MMHL is a multimodal medical misinformation detection dataset developed by Virginia Tech. It aims to address the core limitations of existing datasets, including neglect of visual information, exclusive focus on COVID-19-related misinformation, and omission of misinformation generated by large language models (LLMs). This dataset contains not only human-generated misinformation but also misinformation produced by LLMs such as ChatGPT, covering 15 disease categories, with data sourced from news articles and tweets. During the dataset construction process, text and their associated images were crawled to ensure the multimodal nature of the data. With broad application scenarios, this dataset is designed to enhance the detection capability of medical misinformation, particularly in distinguishing between human-generated and LLM-generated misinformation.

提供机构：

弗吉尼亚理工大学

创建时间：

2023-06-15

搜集汇总

数据集介绍

构建方式

在医学信息验证领域，构建高质量数据集是推动虚假信息检测技术发展的基石。Med-MMHL数据集的构建采用了系统化的多源数据采集策略，涵盖新闻、推文及对应图像。研究团队首先从权威医学网站（如ClevelandClinic、NIH）和事实核查平台（如AFPFactCheck、PolitiFact）爬取2017年至2023年的文本与图像数据，确保真实与虚假信息的可靠来源。通过提取事实核查文章中的主张摘要，区分真实主张与虚假主张。为纳入大语言模型生成的虚假信息，团队采用ChatGPT对部分真实新闻进行对抗性修改，通过提示语生成语义相反的句子，形成LLM生成的虚假新闻与句子。推文数据则基于新闻标题作为关键词进行关联采集，并依据对应新闻的真实性进行标注。

使用方法

该数据集支持多层次、多场景的虚假信息检测研究。在任务设计上，可应用于五类基准任务：针对纯文本的虚假新闻检测、LLM生成虚假句子的细粒度识别、结合图像的多模态虚假新闻检测、推文虚假性判定及其多模态扩展。研究者可通过GitHub仓库获取数据与代码，利用预划分的训练、验证与测试集（比例7:1:2）进行模型开发。数据使用需注意推文部分仅提供ID，需通过官方API获取完整内容以符合平台协议。实验表明，基于Transformer的预训练模型在文档级检测中表现优异，但在LLM生成句子的识别上仍存在挑战，这为后续研究指明了改进方向。

背景与挑战

背景概述

在医学信息传播领域，虚假信息的泛滥已成为全球性挑战，尤其在COVID-19疫情期间，医疗误报对公共健康政策与个体诊疗决策产生了深远负面影响。为应对现有数据集的局限性，弗吉尼亚理工大学与亚马逊的研究团队于2023年联合构建了Med-MMHL数据集。该数据集聚焦于多模态医疗虚假信息检测，首次整合了人类生成与大型语言模型（如ChatGPT）生成的虚假内容，覆盖包括COVID-19在内的15种疾病，旨在推动跨疾病泛化检测与多场景（如句子、文档及多模态层级）虚假信息识别方法的研究，为医学信息可信度评估提供了关键数据基础。

当前挑战

Med-MMHL数据集致力于解决医疗虚假信息检测领域的核心挑战：其一，传统方法多局限于文本模态，忽视了视觉信息在虚假内容传播中的增强作用；其二，现有数据多集中于单一疾病（如COVID-19），缺乏对多样化疾病场景的泛化能力；其三，大型语言模型生成虚假信息的机制尚未被充分探索，检测模型面临语义细微篡改与对抗性攻击的识别难题。在构建过程中，研究团队需克服多源数据（新闻、推文、图像）的异构整合、LLM生成内容的可控模拟，以及跨模态对齐的标注复杂性，同时确保数据时效性与疾病覆盖的平衡性。

常用场景

经典使用场景

在医学信息可信度评估领域，Med-MMHL数据集被广泛应用于多模态虚假信息检测模型的训练与验证。该数据集整合了新闻、推文及对应图像，涵盖人类生成与大型语言模型生成的虚假内容，为研究者提供了在句子、文档及多模态层面进行医学虚假信息识别的标准化测试平台。其多疾病覆盖特性使得模型能够超越单一病种（如COVID-19）的局限，提升检测系统的泛化能力与鲁棒性。

解决学术问题

Med-MMHL有效应对了医学虚假信息检测研究中长期存在的三大挑战：其一，突破了传统数据集中仅依赖文本模态的局限，引入视觉信息以支持多模态融合分析；其二，拓展了疾病覆盖范围，将研究焦点从COVID-19延伸至贫血、关节炎等十五类疾病，促进了跨病种虚假信息检测方法的发展；其三，首次系统性地纳入LLM生成的虚假医学信息，为应对人工智能生成内容的可信度危机提供了关键研究素材。

实际应用

该数据集在公共卫生监测与数字内容审核领域具有显著应用价值。医疗机构与健康平台可基于其训练的多模态检测模型，实时筛查社交媒体中的虚假医学资讯，遏制误导性治疗方案的传播。新闻事实核查机构亦能借助该数据集构建自动化验证系统，快速识别混杂在权威信源中的LLM生成虚假新闻，从而提升公众健康信息的整体可信度与传播安全性。

数据集最近研究