medical hallucination dataset

github2025-03-09 更新2025-03-06 收录

下载链接：

https://github.com/mitmedialab/medical_hallucination

下载链接

链接失效反馈

官方服务：

资源简介：

用于理解和解决医疗幻觉问题的分类法，以及用于真实医疗案例的医生注释大型语言模型响应的医疗幻觉数据集。

This medical hallucination dataset provides a taxonomy for understanding and resolving medical hallucinations, along with physician-annotated responses of large language models (LLMs) derived from real clinical cases.

创建时间：

2025-02-13

原始信息汇总

数据集概述：Medical Hallucination in Foundation Models and Their Impact on Healthcare

基本信息

标题: Medical Hallucination in Foundation Models and Their Impact on Healthcare (2025)
预印本: medRxiv
项目网站: Project Website
联系方式: ybkim95@mit.edu

研究背景

基础模型（Foundation Models）在医学领域的应用日益广泛，但其可靠性受到幻觉（hallucination）问题的限制。医学幻觉指的是模型生成误导性医学内容的情况，可能对临床决策和患者安全产生严重影响。

主要贡献

医学幻觉分类法: 提出了一种用于理解和解决医学幻觉的分类法。
基准测试: 使用医学幻觉数据集和医生标注的LLM响应进行模型基准测试。
多国临床医生调查: 调查了临床医生对医学幻觉的体验和看法。

数据集内容

医学幻觉的特殊性

挑战性: 医学幻觉在临床任务中更难检测，因为它们使用专业术语且看起来逻辑连贯。
影响: 医学幻觉可能导致患者护理延误或不适当的干预措施。

医学LLM中的幻觉

示例: 提供了多个医学幻觉的示例和分类法（参见论文表1和表2）。

临床医生调查

参与者: 75名医学专业人士（主要是MD和/或PhD）。
时间: 2024年9月15日至12月18日。
发现: 临床医生广泛使用AI/LLM工具，但普遍遇到医学幻觉问题。

医学幻觉基准

基准列表: 包括多个医学幻觉基准测试（参见论文表3）。

LLM实验

实验结果: 展示了不同LLM在医学幻觉基准上的表现（参见图5）。

检测方法

事实验证: 通过事实核查检测幻觉。
摘要一致性验证: 通过摘要一致性检测幻觉。
基于不确定性的检测: 通过模型不确定性检测幻觉。

缓解方法

方法列表: 包括多种缓解医学幻觉的技术（如检索增强生成、自我反思等）。

医生标注

标注过程: 使用结构化标注流程评估LLM在临床领域中的幻觉。

相关资源

代码和数据集: 提供了多个相关项目的代码和数据链接。

搜集汇总

数据集介绍

构建方式

本数据集的构建以医学大语言模型中存在的虚构信息问题为背景，旨在理解和解决医学领域中AI生成的误导性内容。数据集通过收集和分析大型语言模型在处理医学任务时产生的虚构信息，构建了一个包含不同类型虚构信息的标注框架，并以此框架为基础，对真实医疗案例中LLM的响应进行了医师标注，形成了一个用于评估和改进医学AI可靠性的基准数据集。

特点

该数据集的特点在于其对医学虚构信息的深入分类和详细标注，涵盖了诊断推理、治疗规划、实验室结果解读等专业化任务。数据集中的虚构信息不仅使用专业术语，且逻辑上看似合理，这使得非专业人士难以识别。此外，该数据集还包含了一个跨国医疗专业人员的调查，反映了AI工具在临床实践中的实际应用情况和专业人士的体验。

使用方法

使用该数据集时，研究者可以依据数据集中提供的虚构信息类型和医师标注的LLM响应，来评估和比较不同模型的虚构信息生成情况。此外，数据集还提供了用于事实核查、摘要一致性验证和不确定性基础上的虚构信息检测等多种方法，以及减少医学虚构信息的缓解策略。这些资源和工具使得该数据集成为一个全面的研究平台，有助于推动医学AI领域的进步。

背景与挑战

背景概述

医疗 hallucination 数据集的研究背景可追溯至近年来基础模型在医学领域的广泛应用。这些模型在处理和生成多模态数据方面的能力，为人工智能在医学中的角色带来了转变。然而，其可靠性的一个关键限制是hallucination现象，即模型生成不准确或虚构的信息，这可能影响临床决策和患者安全。本研究定义了“医疗hallucination”为模型生成任何具有误导性的医疗内容的现象。论文探讨了医疗hallucinations的独特特征、成因及其影响，特别是这些错误如何在现实世界的临床场景中体现。该数据集及相关研究由多个机构共同贡献，包括麻省理工学院（MIT）、伦敦大学学院（UCL）等，其研究成果已发布在medRxiv等平台上，对相关领域产生了重要影响。

当前挑战

该数据集面临的挑战主要涉及两个方面：一是医疗hallucinations本身的挑战，包括其在诊断推理、治疗规划、实验室结果解读等专业化任务中的表现形式，以及如何准确识别和评估这些错误。二是构建过程中的挑战，包括如何构建有效的评估指标、基准测试，以及开发减少或缓解hallucinations的技术。具体挑战包括但不限于：医疗hallucinations的检测与诊断、模型生成内容的准确性与一致性验证、以及通过技术手段减轻hallucinations的影响等。

常用场景

经典使用场景

Medical Hallucination Dataset 被广泛应用于评估和改进大型语言模型在医学领域的可靠性。其经典使用场景包括对医学大型语言模型的基准测试，通过医师标注的响应来直接洞察临床中幻觉的影响，以及多国医师对医学幻觉体验的调查。该数据集使得研究人员能够量化模型在生成医学内容时的准确性，并针对性地优化模型性能，以减少临床决策中的错误和提升患者安全。

解决学术问题

该数据集解决了学术界在将大型语言模型应用于医学领域时所面临的幻觉问题。通过提供标注的医学幻觉案例，该数据集帮助研究者识别并理解医学幻觉的特征和原因，进而推动了对减少和缓解幻觉的策略的开发。这对于制定保障患者安全和维护临床诚信的监管政策至关重要，确保了人工智能在医疗保健中的集成应用。

衍生相关工作

基于Medical Hallucination Dataset，衍生出了一系列相关工作，包括对医学幻觉的检测和缓解方法的研究，以及构建新的评估基准来量化不同模型在减少幻觉方面的表现。这些研究不仅推动了医学AI领域的技术进步，也为制定相关伦理和监管指南提供了科学依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集