MedTrinity-25M
收藏MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine
数据集概述
MedTrinity-25M 是一个大规模的多模态数据集,专为医学领域设计,具有多粒度注释。该数据集包含丰富的医学图像和相应的文本描述,适用于医学视觉问答等任务。
数据集构建流程
- 数据处理:从收集的数据中提取关键信息,包括元数据集成以生成粗略描述、感兴趣区域(ROI)定位和医学知识收集。
- 多粒度文本描述生成:利用这些信息提示大型语言模型(MLLMs)生成细粒度描述。
数据集统计概览
数据集的统计信息如图所示,详细展示了数据集的规模和结构。
数据集下载
数据集可通过 Hugging Face Hub 下载:
- MedTrinity-25M: UCSC-VLAA/MedTrinity-25M
结果展示
数据集在多个医学视觉问答任务上的表现结果如图所示,展示了其在相关领域的性能。
快速开始
安装
-
克隆仓库并导航到文件夹: bash git clone https://github.com/UCSC-VLAA/MedTrinity-25M.git
-
安装包: shell conda create -n llava-med++ python=3.10 -y conda activate llava-med++ pip install --upgrade pip pip install -e .
-
安装额外的训练包: shell pip install -e ".[train]" pip install flash-attn --no-build-isolation pip install git+https://github.com/bfshi/scaling_on_scales.git pip install multimedeval
模型库
以下是数据集中可用的模型概览:
| 模型名称 | 链接 | 概述 |
|---|---|---|
| LLaVA-Med++ (VQA-RAD) | Google Drive | 在LLaVA-Med数据和MedTrinity-25M的VQA-RAD训练子集上预训练,然后在VQA-RAD训练集上微调。 |
| LLaVA-Med++ (SLAKE) | Google Drive | 在LLaVA-Med数据和MedTrinity-25M的SLAKE训练子集上预训练,然后在SLAKE训练集上微调。 |
| LLaVA-Med++ (PathVQA) | Google Drive | 在LLaVA-Med数据和MedTrinity-25M的PathVQA训练子集上预训练,然后在PathVQA训练集上微调。 |
| LLaVA-Med-Captioner | Hugging Face | 用于生成多粒度注释的描述器,在MedTrinity-Instruct-200K上微调。 |
引用
如果您发现MedTrinity-25M对您的研究有帮助,请使用以下BibTeX引用: bibtex @misc{xie2024medtrinity25mlargescalemultimodaldataset, title={MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine}, author={Yunfei Xie and Ce Zhou and Lang Gao and Juncheng Wu and Xianhang Li and Hong-Yu Zhou and Sheng Liu and Lei Xing and James Zou and Cihang Xie and Yuyin Zhou}, year={2024}, eprint={2408.02900}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.02900}, }




