MedMax

github2024-12-19 更新2024-12-20 收录

下载链接：

https://github.com/Hritikbansal/medmax

下载链接

链接失效反馈

官方服务：

资源简介：

MedMax是第一个大规模的多模态生物医学指令调优数据集，用于多模态基础模型的训练。该数据集包含147万个实例，涵盖了多种任务，包括多模态内容生成（交错的图像-文本数据）、生物医学图像描述和生成、视觉聊天和报告理解。这些任务涉及放射学和组织病理学等多个医学领域。

MedMax is the first large-scale multimodal biomedical instruction-tuning dataset for training multimodal foundation models. This dataset contains 1.47 million instances, covering a wide range of tasks including multimodal content generation (interleaved image-text data), biomedical image captioning and generation, visual chat, and report understanding. These tasks span multiple medical domains such as radiology and histopathology.

创建时间：

2024-12-07

原始信息汇总

MedMax 数据集概述

数据集简介

MedMax 是一个大规模的多模态生物医学指令调优数据集，旨在用于训练混合模态基础模型。该数据集包含 1.47 百万个实例，涵盖了多种任务，包括多模态内容生成（交错的图像-文本数据）、生物医学图像描述和生成、视觉聊天和报告理解。这些任务涉及放射学和组织病理学等多个医学领域。

数据集组成

数据集来源：数据集托管在 Hugging Face 上，分为训练数据集和评估数据集。
- 训练数据集：https://huggingface.co/datasets/mint-medmax/medmax_data
- 评估数据集：https://huggingface.co/datasets/mint-medmax/medmax_eval_data
数据集划分：
- 数据集分为两部分：credential = YES 和 credential = NO。
- credential=YES 部分不提供 image_path 和 tokens，而 credential=NO 部分可以直接用于模型微调。

数据集使用

获取数据：
- 对于 credential=YES 部分，需要按照 Hugging Face 数据集的 README 文件中的说明获取剩余的图像数据和 tokens。
- 对于 credential=NO 部分，可以直接用于模型微调。
数据处理：
- 创建包含绝对图像路径的 CSV 文件。
- 下载 MedMax 模型检查点，该检查点包含 VQGAN 检查点。
- 运行图像令牌化命令生成包含 img_tokens 列的 parquet 文件。
多模态序列令牌化：
- 创建包含多模态文本、图像路径、图像令牌等元素的 JSONL 文件。
- 使用指定的令牌化代码对数据进行处理。

数据集评估

评估数据集：
- 请求访问 MedMax 评估数据集，并按照说明设置评估环境。
- 运行评估套件以评估 MedMax 7B 和 Chameleon 7B 模型。

模型微调

微调步骤：
- 下载基础模型和 MedMax 训练数据。
- 使用多 GPU 微调命令进行模型微调。
- 合并微调后的 LoRA 适配器并转换为 Chameleon 格式。

模型转换

从 Chameleon 格式转换为 Hugging Face 格式：
- 提供 MedMax-7B 的 Hugging Face 检查点，并提供转换命令。

相关资源

模型检查点：https://huggingface.co/mint-medmax/medmax_7b
VQGAN 训练说明：vqgan/readme.MD

搜集汇总

数据集介绍

构建方式

MedMax数据集的构建基于大规模的多模态指令调优，旨在为生物医学领域的混合模态基础模型提供丰富的训练资源。该数据集包含了147万条实例，涵盖了多种任务类型，如多模态内容生成、生物医学图像描述与生成、视觉对话以及报告理解等。这些任务跨越了放射学和组织病理学等多个医学领域。数据集的构建过程中，研究团队精心设计了多模态数据的整合方式，确保了数据的高质量和多样性，从而为模型的训练提供了坚实的基础。

特点

MedMax数据集的显著特点在于其多模态性和任务的多样性。数据集不仅包含了图像和文本的交错数据，还涉及了生物医学图像的描述与生成等复杂任务。此外，数据集的构建考虑了不同医学领域的实际需求，确保了数据的广泛覆盖和深度应用。通过这些特点，MedMax为生物医学AI助手的发展提供了强大的支持，尤其是在视觉问答和报告理解等任务上表现出色。

使用方法

使用MedMax数据集时，用户可以通过Hugging Face平台获取数据，并根据提供的指令进行数据预处理和模型训练。数据集分为两部分，分别对应不同的权限级别。用户可以选择直接使用‘credential=NO’部分的数据进行训练，而对于‘credential=YES’部分的数据，则需要按照提供的步骤获取图像路径和令牌信息。此外，数据集还提供了详细的评估和微调指南，帮助用户在多模态任务上取得最佳性能。

背景与挑战

背景概述

近年来，混合模态生成模型的进步为生物医学AI领域带来了革命性的变化，尤其是在图像分析、诊断和数据集创建方面。然而，现有资源在数据可用性、领域覆盖范围和数据来源方面存在显著局限，主要集中于医学文献。为填补这一空白，MedMax数据集应运而生，由主要研究人员和机构于近期创建。作为首个大规模多模态生物医学指令调优数据集，MedMax包含147万条实例，涵盖多模态内容生成、生物医学图像描述与生成、视觉对话和报告理解等多样化任务，涉及放射学和组织病理学等多个医学领域。该数据集的推出不仅推动了混合模态基础模型的性能提升，还在12个下游生物医学视觉问答任务中实现了显著的性能改进，为下一代混合模态生物医学AI助手的开发提供了坚实基础。

当前挑战

MedMax数据集的构建与应用面临多重挑战。首先，多模态数据的整合与处理需要克服数据异质性和复杂性，确保不同模态信息的无缝集成。其次，生物医学领域的专业性和多样性要求数据集在任务设计和标注过程中具备高度的精确性和广泛性。此外，数据集的隐私和安全问题，特别是在处理敏感的医学图像和患者信息时，成为构建过程中的重要挑战。最后，如何有效评估和验证多模态模型的性能，确保其在实际应用中的可靠性和准确性，也是该数据集面临的关键问题。

常用场景

经典使用场景

MedMax数据集在生物医学领域中展现了其卓越的多模态处理能力，尤其在图像分析、诊断辅助和报告生成等任务中表现突出。其经典使用场景包括多模态内容生成，如图像与文本的交错数据处理，生物医学图像的描述与生成，视觉对话以及报告理解。这些任务广泛涵盖了放射学和组织病理学等多个医学领域，为生物医学AI助手提供了丰富的训练数据。

解决学术问题

MedMax数据集通过提供大规模的多模态生物医学指令调优数据，有效解决了现有资源在数据可用性、领域覆盖范围和数据来源上的局限性。该数据集不仅推动了多模态生成模型在生物医学图像分析和诊断中的应用，还通过统一的评估框架，为下一代多模态生物医学AI助手的发展提供了坚实的理论基础和实践指导。

衍生相关工作

基于MedMax数据集，研究者们开发了多种多模态生物医学模型，如MedMax-7B模型，该模型在多个下游生物医学视觉问答任务中表现优异。此外，MedMax还启发了对多模态生成模型在生物医学领域的深入研究，推动了如图像描述生成、视觉对话系统等前沿技术的应用和发展。这些工作不仅提升了生物医学AI的性能，也为未来的研究提供了新的方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集