Med-Banana-50K

Name: Med-Banana-50K
Creator: 新加坡国立大学
Published: 2025-11-05 21:45:24
License: 暂无描述

arXiv2025-11-05 更新2025-11-13 收录

下载链接：

https://github.com/richardChenzhihui/med-banana-50k

下载链接

链接失效反馈

官方服务：

资源简介：

Med-Banana-50K是一个包含约50,000个高质量医疗图像编辑实例的数据集，由真实临床图像构建，涵盖了三种模态（胸部X射线、脑部MRI、眼底摄影）和23种疾病类型。该数据集采用先进的跨模态模型进行生成和评估，并通过自动化的LLM-as-Judge评分和多轮细化确保了严格的医疗质量控制。Med-Banana-50K不仅包含了50,635个成功的单次编辑示例，还包括了37,822个失败尝试的完整对话记录，为偏好学习和对齐研究提供了丰富的负例数据。

Med-Banana-50K is a dataset comprising approximately 50,000 high-quality medical image editing instances constructed from real clinical images. It covers three imaging modalities (chest X-rays, brain MRI, fundus photography) and 23 distinct disease categories. The dataset was generated and evaluated using advanced cross-modal models, with strict medical quality control ensured via automated LLM-as-Judge scoring and multi-round refinement steps. Med-Banana-50K includes 50,635 successful single-edit examples as well as complete conversation records of 37,822 failed editing attempts, providing rich negative sample data for preference learning and alignment research.

提供机构：

新加坡国立大学

创建时间：

2025-11-02

搜集汇总

数据集介绍

构建方式

在医学影像编辑领域，构建高质量数据集需兼顾临床准确性与技术可行性。Med-Banana-50K通过多阶段流程实现这一目标：首先基于真实医学影像（胸片X光、脑部MRI、眼底摄影）构建双向编辑任务，利用Gemini-2.5-Flash-Image模型执行病灶添加与移除操作；随后采用Gemini-2.5-Pro作为自动化评估器，通过四维医学标准（指令依从性、结构合理性、真实感、保真度）进行质量筛选；最终通过最多五轮的历史感知迭代优化，保留失败案例形成完整对话日志。

特点

该数据集的核心特征体现在三方面：跨模态覆盖性囊括三种主流医学影像类型与23种疾病，双向编辑机制同时支持病理生成与消除任务；质量保障体系创新采用LLM-as-Judge医学评估框架，通过结构化评分确保解剖合理性与影像保真度；数据完整性不仅包含5万成功样本，更保留3.7万失败尝试与全流程对话记录，为偏好学习与对齐研究提供丰富素材。这种设计使数据集兼具医学严谨性与算法研究价值。

使用方法

研究者在应用该数据集时可遵循分层使用策略：基础层面可直接调用5万成功样本进行监督微调，通过图像-指令对训练模型执行医学影像编辑；进阶研究可利用失败案例与多轮对话数据开展偏好对齐实验，实施DPO优化或奖励建模；验证阶段应结合自动化评估与人工校验，借助内置质量维度指标进行模型输出分析。数据集采用模块化存储结构，配套元数据模式支持端到端实验流程，建议在严格遵守研究伦理前提下开展非临床用途的算法探索。

背景与挑战

背景概述

随着多模态大语言模型在医学图像编辑领域的快速发展，研究界长期受限于缺乏大规模、高质量且开放共享的医学图像编辑数据集。2025年，新加坡国立大学研究人员陈志辉与冯梦玲团队发布了Med-Banana-50K数据集，该数据集聚焦于文本引导的医学图像编辑任务，涵盖胸部X光、脑部MRI和眼底摄影三种模态及23种疾病类型。通过利用Gemini-2.5-Flash-Image生成双向病变编辑，并结合基于医学标准的LLM-as-Judge质量评估体系，该数据集为医学图像生成模型的训练与评估建立了重要基准，显著推动了精准医疗与人工智能的交叉研究。

当前挑战

医学图像编辑需应对双重挑战：在领域问题层面，模型必须严格保持解剖结构合理性、模态特异性噪声纹理，并实现反事实最小化修改，避免引入非目标病理特征；在构建过程中，数据集面临质量控制的复杂性，需通过多轮迭代优化与历史感知提示更新机制解决编辑失败案例，同时需平衡不同模态间的成功率差异，例如脑部MRI因肿瘤边界模糊导致的低通过率问题。此外，合成图像的临床有效性验证与隐私保护要求进一步增加了构建难度。

常用场景

经典使用场景

在医学影像分析领域，Med-Banana-50K数据集通过涵盖胸部X光、脑部MRI和眼底摄影三种模态的文本引导编辑任务，为多模态大语言模型的训练提供了标准化基准。其双向编辑设计支持病灶添加与移除的对比研究，尤其适用于探索病理特征合成与健康影像重建的对称性机制，已成为医学图像生成领域模型性能验证的核心工具。

衍生相关工作

基于该数据集构建的医学编辑基准已催生多项创新研究，例如结合DPO的偏好对齐框架、针对多模态模型的反射优化算法，以及跨模态病理迁移编辑技术。这些工作进一步拓展了其在医学图像合成质量评估、多轮对话编辑优化等方向的方法论体系。

数据集最近研究