Med-Banana-50K

Name: Med-Banana-50K
Creator: 新加坡国立大学
Published: 2025-11-02 12:46:43
License: 暂无描述

arXiv2025-11-02 更新2025-11-06 收录

下载链接：

https://arxiv.org/abs/2511.00801v1

下载链接

链接失效反馈

官方服务：

资源简介：

Med-Banana-50K是一个包含约5万张高质量医疗图像编辑实例的综合性数据集，由真实临床图像构建，涵盖了三种模态（胸部X射线、脑部MRI、眼底摄影）和23种疾病类型。该数据集旨在为基于指令的医疗图像编辑提供大规模的训练数据，同时确保多样性和可共享性。数据集的构建过程严格遵循医疗质量控制标准，通过自动化的LLM-as-Judge评分和多轮精炼，确保了高语义保真度和视觉逼真度。

Med-Banana-50K is a comprehensive dataset containing approximately 50,000 high-quality medical image editing instances. It is built from real clinical images, covering three imaging modalities: chest X-rays, brain MRIs, and fundus photography, as well as 23 disease categories. This dataset aims to provide large-scale training data for instruction-based medical image editing while ensuring diversity and shareability. The dataset construction process strictly follows medical quality control standards, and guarantees high semantic fidelity and visual realism through automated LLM-as-Judge scoring and multi-round refinement.

提供机构：

新加坡国立大学

创建时间：

2025-11-02

原始信息汇总

Med-Banana-50K 数据集概述

基本信息

标题: Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing
arXiv标识符: arXiv:2511.00801v1
提交日期: 2025年11月2日
最新版本: v2（2025年11月5日）
学科分类: Computer Vision and Pattern Recognition (cs.CV), Multimedia (cs.MM)

作者信息

Zhihui Chen
Mengling Feng

数据集描述

规模: 包含50,000张图像的综合性数据集
用途: 基于指令的医学图像编辑
覆盖模态:
- 胸部X光
- 脑部MRI
- 眼底摄影
疾病类型: 涵盖23种疾病类型

数据集构建方法

生成工具: 使用Gemini-2.5-Flash-Image生成双向编辑（病灶添加和移除）
数据源: 基于真实医学图像
质量控制:
- 采用LLM-as-Judge评估机制
- 基于医学标准的评估指标（指令符合度、结构合理性、真实性和保真度保持）
- 历史感知的迭代优化，最多进行五轮

数据集特色

包含37,000次失败尝试的完整对话记录
支持偏好学习和对齐研究
提供大规模、医学验证和完整文档的资源

可用性

数据集和代码公开可用
访问地址: https://doi.org/10.48550/arXiv.2511.00801

搜集汇总

数据集介绍

构建方式

在医学影像编辑领域，数据集的构建需兼顾规模与质量的双重需求。Med-Banana-50K通过系统化流程实现这一目标：首先从真实临床影像中选取涵盖胸部X光、脑部MRI和眼底摄影三大模态的源数据，覆盖23种疾病类型；随后利用Gemini-2.5-Flash-Image模型执行双向编辑任务，包括病灶添加与移除；最后通过Gemini-2.5-Pro作为自动化评估器，从指令依从性、结构合理性、真实度及保真度四个维度进行医学质量校验，并采用历史感知的迭代优化机制，最多进行五轮 refinement 以提升数据质量。

特点

该数据集的核心特征体现在其医学专业性与系统性设计。其跨模态架构覆盖三大医学影像类型，每种模态均包含双向编辑任务，形成丰富的任务组合。独特的医学质量控制机制通过LLM-as-Judge评估体系确保编辑结果符合临床合理性，同时完整保留37,822次失败尝试的对话记录，为偏好学习研究提供珍贵样本。数据组织采用分层目录结构，辅以标准化元数据模式，既保障了数据的可追溯性，又支持灵活的研究应用场景。

使用方法

研究者在应用该数据集时，可通过解析标准化的JSON元数据文件获取完整的任务信息。成功编辑样本适用于监督式微调训练，而失败案例与多轮对话记录则为DPO等对齐算法提供对比学习素材。数据按模态-疾病-任务的三级目录组织，支持针对特定临床场景的定向加载。用户需注意遵循CC BY 4.0许可协议，并在临床部署前进行严格的领域验证，所有源数据均需依原始许可协议独立获取。

背景与挑战

背景概述

医学影像编辑作为多模态人工智能研究的前沿领域，近年来因生成式模型的突破而备受关注。2025年，新加坡国立大学研究人员陈志辉与冯梦玲团队发布了Med-Banana-50K数据集，旨在解决医学影像编辑领域缺乏大规模高质量标注数据的核心问题。该数据集基于真实临床影像构建，涵盖胸部X光、脑部MRI和眼底摄影三种模态，包含23种疾病类型的双向编辑任务，通过Gemini-2.5模型实现病灶添加与移除的自动化生成。其创新性在于引入基于大语言模型的医疗质量评估体系，为医学影像生成模型的训练与评估建立了标准化基准。

当前挑战

医学影像编辑需克服双重挑战：在领域问题层面，模型必须同时满足指令遵循度、解剖结构合理性、视觉真实性与影像保真度四大医疗约束，其中病灶边界保持与模态特异性纹理的还原尤为困难。在构建过程中，数据集面临医疗质量控制的规模化难题，需通过五轮迭代优化与多维度评分机制确保数据可靠性。不同模态间存在显著性能差异，脑MRI编辑因复杂解剖结构导致成功率仅36.3%，而眼底影像因病理特征明确达到69%成功率，反映出医学影像编辑对领域知识的深度依赖。

常用场景

经典使用场景

在医学影像分析领域，Med-Banana-50K数据集最经典的应用场景是训练和评估基于文本指令的医学图像编辑模型。该数据集通过双向编辑任务（病灶添加与移除）构建了涵盖胸部X光、脑部MRI和眼底摄影三大模态的标准化测试平台，为研究者在保持解剖结构合理性和影像保真度的前提下，探索病理特征的可控生成与消除提供了重要基准。其独特的迭代优化机制和失败案例保留策略，进一步增强了模型在复杂医学场景下的鲁棒性训练效果。

实际应用

在临床科研实践中，该数据集已展现出多重应用价值：其生成的病灶添加样本可用于数据增强，提升诊断模型对罕见病变的识别能力；病灶移除结果则能模拟治疗效果，辅助医生进行预后评估。在医学教育领域，这些可控生成的病理影像为教学案例库提供了丰富素材。此外，数据集中蕴含的迭代优化机制为开发临床决策支持系统提供了重要参考，其严格的医学约束条件确保生成内容既满足科研需求又符合临床规范。

衍生相关工作

基于该数据集衍生的经典研究呈现出多元化发展趋势：在模型架构方面，催生了专注于医学影像编辑的定制化Transformer网络；在评估方法领域，推动了基于LLM-as-Judge范式的自动化质量评估体系完善；在应用拓展层面，激发了针对特定模态的跨疾病编辑模型研究。这些衍生工作不仅深化了对医学图像语义编辑机理的理解，更构建起连接计算机视觉与临床医学的创新研究范式，为后续多中心联合研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集