MedHallTune

Name: MedHallTune
Creator: 香港中文大学计算机科学与工程系，香港中文大学医学智能与XR研究所，上海人工智能实验室
Published: 2025-02-28 14:59:49
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

https://github.com/russellyq/MedHallTune

下载链接

链接失效反馈

官方服务：

资源简介：

MedHallTune是由香港中文大学等机构研发的大型数据集，包含超过10万张医学图像和100万条指令对，既有幻觉样本也有非幻觉样本，专门针对医疗应用设计。数据集内容丰富，涵盖了大量的医学图像和指令，旨在帮助模型更好地理解和处理医学场景中的幻觉问题，提高其在实际医疗应用中的可靠性和准确性。

MedHallTune is a large-scale dataset developed by The Chinese University of Hong Kong and other institutions. It contains over 100,000 medical images and 1 million instruction pairs, covering both hallucinatory and non-hallucinatory samples, and is specifically tailored for medical applications. Boasting rich content with a vast collection of medical images and instructions, this dataset aims to assist models in better understanding and addressing hallucination issues in medical scenarios, thereby enhancing their reliability and accuracy in real-world medical applications.

提供机构：

香港中文大学计算机科学与工程系，香港中文大学医学智能与XR研究所，上海人工智能实验室

创建时间：

2025-02-28

原始信息汇总

MedHallTune 数据集概述

数据集简介

MedHallTune是一个用于减轻视觉语言模型中的医学幻觉的基准和指令调整数据集。

数据集发布

训练和评估的MedHallTune数据集以及模型权重即将发布。
数据集已在arXiv上可用。

数据集下载

数据集可在Huggingface Hub上获取。

引用信息

若MedHallTune对您的研究有用或相关，请通过以下引用认可我们的贡献：

bibtex @misc{yan2025medhalltune, title={MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models}, author={Qiao Yan and Yuchen Yuan and Xiaowei Hu and Yihan Wang and Jiaqi Xu and Jinpeng Li and Chi-Wing Fu and Pheng-Ann Heng}, year={2025}, eprint={2502.20780}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2502.20780}, }

搜集汇总

数据集介绍

构建方式

MedHallTune数据集的构建始于从PubMed数据库中抽取超过100,000张已标注的医学图像。随后，利用GPT-4o模型生成了包含幻觉和非幻觉的指令对，其中幻觉指令被细分为三类：非存在的医学对象引入、存在的医学对象操纵和临床知识扭曲。为了确保数据质量，数据集构建过程中还实施了一轮自我检查机制，通过提供图像和标注来生成指令对，并单独使用标注来评估这些指令的准确性，过滤掉不正确的指令对。最终，MedHallTune数据集包含了超过100,000张图像和1,000,000对指令，涵盖了幻觉和非幻觉样本，并附带真实标注。

特点

MedHallTune数据集的特点在于其规模庞大，包含丰富的医学图像和指令对，特别针对医学场景中的幻觉问题进行了设计。数据集不仅包含了幻觉样本，还包含了非幻觉样本，以确保模型在训练过程中不会偏向于负面响应。此外，MedHallTune数据集提出了基于临床精确度、临床相关性、信息详尽程度和风险等级的一套新的评估指标，这些指标超越了传统的幻觉检测方法，旨在提高VLM在现实医疗应用中的可靠性和可信度。

使用方法

使用MedHallTune数据集的方法包括对现有的VLM模型进行微调，以增强其处理医学幻觉的能力。通过在MedHallTune上进行微调，模型能够在临床准确度、临床相关性、信息详尽程度和风险等级等关键指标上展现更好的性能。此外，MedHallTune数据集还可以用于评估VLM模型在下游视觉问答任务上的零样本性能。实验结果表明，微调后的模型在下游任务上的表现也得到了提升，使其在医疗应用中更加可靠。

背景与挑战

背景概述

随着视觉语言模型（VLMs）在医疗保健领域的应用日益增多，模型出现幻觉的问题给临床决策带来了巨大挑战。幻觉指的是模型生成看似合理但实际上错误的结果。为了解决这一问题，香港中文大学计算机科学与工程系的研究人员提出了MedHallTune数据集，这是一个大型的基准数据集，旨在评估和减轻医疗VLMs中的幻觉。该数据集包含超过10万张图像和100万条指令对，包括幻觉和非幻觉样本，每个样本都有真实标注。研究人员使用MedHallTune对当前的医疗和通用VLMs进行了全面评估，包括临床准确性、相关性、详细程度和风险水平等关键指标。实验结果表明，使用MedHallTune进行微调可以有效地提高现有模型处理幻觉的能力，并提升它们在下游视觉问答（VQA）任务上的零样本性能，使其更适合实际的医疗应用。

当前挑战

MedHallTune数据集面临着一些挑战。首先，如何确保数据集中的幻觉样本能够真实地反映医疗场景中的幻觉情况，是一个需要解决的问题。其次，数据集中包含的指令对需要确保覆盖各种医疗场景和任务，以便模型能够更好地适应不同的医疗应用。此外，如何设计有效的评估指标来全面评估模型在处理幻觉方面的性能，也是一个重要的挑战。最后，如何将MedHallTune数据集与其他医疗VLMs相关的研究和数据进行整合，以推动医疗VLMs的发展，也是一个需要考虑的问题。

常用场景

经典使用场景

在医疗影像分析和诊断中，视觉语言模型（VLMs）的应用日益广泛。然而，这些模型在生成看似合理但实际上错误的结果时，可能会产生幻觉。MedHallTune数据集旨在评估和缓解医疗VLMs中的幻觉现象。该数据集包括超过10万张图像和100万条指令对，涵盖了幻觉和非幻觉样本，并带有真实标注。通过使用MedHallTune进行微调，可以有效提高现有模型处理幻觉的能力，并提升其在下游视觉问答（VQA）任务上的零样本性能，使其更适合实际的医疗应用。

衍生相关工作

MedHallTune数据集的提出和研究成果为医疗VLMs的研究提供了重要的参考和启示。该数据集的构建方法和评估指标可以为其他相关研究提供借鉴和改进的方向。此外，MedHallTune还可以与其他数据集结合使用，进一步提高VLMs在医疗领域的性能和可靠性。

数据集最近研究