M3Retrieve

github2025-09-16 更新2025-10-12 收录

下载链接：

https://github.com/AkashGhosh/M3Retrieve

下载链接

链接失效反馈

官方服务：

资源简介：

M3Retrieve是首个针对医疗领域的大规模多模态检索基准数据集，整合了22个精选数据集（均采用宽松许可证），涵盖16个医学学科，包含超过120万文本文档和16.4万多模态查询，覆盖真实世界临床用例，定义了五种与常规医疗工作流程一致的检索任务

M3Retrieve is the first large-scale multimodal retrieval benchmark dataset for the medical domain. It integrates 22 curated datasets under permissive licenses, spans 16 medical disciplines, and contains over 1.2 million textual documents and 164,000 multimodal queries. Covering real-world clinical use cases, the dataset defines five retrieval tasks aligned with routine clinical workflows.

创建时间：

2025-09-16

原始信息汇总

M3Retrieve: 医学多模态检索基准数据集

数据集概述

M3Retrieve是首个针对医学领域定制的大规模多模态检索基准，系统评估医学领域中的文本-图像检索模型。

核心特征

首个多模态医学检索基准 - 提供医学领域首个系统评估文本-图像检索模型的基准
综合性数据集 - 整合22个精选数据集（均采用宽松许可证），涵盖16个医学学科
数据规模 - 包含120万+文本文档和16.4万+多模态查询，覆盖真实世界临床用例
临床导向任务 - 定义五个与常规医疗工作流程对齐的任务
系统性评估 - 对广泛的单模态和多模态检索模型进行基准测试

检索任务定义

视觉上下文检索

给定图像和简短文本（如图片说明），从大型医学语料库中检索最相关的段落

多模态摘要检索

从多模态查询（文本+图像）中检索最合适的专家撰写的集成两种模态的摘要

案例研究检索

将多模态临床查询（患者记录+图像）与医学文献中最相关的完整案例研究进行匹配

多模态查询到图像检索

基于多模态查询（文本+图像）检索最相关的医学图像（如X光、MRI、病理切片）

质量控制管理

所有任务均在医学专家指导下策划，并通过领域专家评审验证，确保临床准确性和相关性

评估结果

性能表现（NDCG@10分数）

方法	视觉上下文检索	摘要检索	查询到图像检索	案例研究检索
BM-25	38.07	18.16	N/A	11.50
E5 Large	35.14	70.23	N/A	7.68
BGE	32.32	83.66	N/A	6.59
NV Embed	43.28	89.73	N/A	10.99
MM Ret	24.56	43.71	2.27	1.09
MII	28.13	22.50	43.53	1.64
CLIP SF	26.44	26.30	29.06	1.27
BLIP FF	24.72	20.89	2.23	0.92
MM Embed	45.47	76.27	29.49	9.91
FLMR	24.80	21.30	2.56	1.48

关键发现

多模态模型在需要整合文本和图像的任务中表现优异
单模态密集检索器在文本密集型任务中保持高效
CLIP风格和医学专用模型在图像中心任务中表现最佳
基于词典的方法在某些设置中仍提供有竞争力的基线

应用价值

为医疗保健多模态检索系统提供标准化平台，推动创新，培养更可靠和临床适用的AI模型

搜集汇总

数据集介绍

构建方式

在医学信息检索领域，M3Retrieve数据集通过系统整合22个经过严格筛选的医学数据集构建而成，涵盖16个医学学科分支。其构建过程遵循临床实际需求，由医学专家参与指导，确保数据来源均采用开放许可协议。该数据集包含超过120万份文本文档与16.4万组多模态查询，通过专业医学知识验证体系，建立了文本-图像跨模态关联的标准化标注框架。

特点

作为首个面向医学领域的多模态检索基准数据集，M3Retrieve展现出显著的学科交叉特性。其核心特征体现在五大临床任务设计：视觉语境检索、多模态摘要检索、病例研究检索、查询-图像检索及质量管控体系。数据集覆盖放射影像、病理切片等多样医学图像模态，配合专业医学文献构成多粒度检索单元，真实还原临床诊疗场景中的信息交互模式。

使用方法

该数据集为医学人工智能研究提供标准化评估平台，研究者可通过定义的多模态检索任务验证模型性能。典型应用流程包括加载预处理的文本-图像对齐数据，配置检索模型在四大核心任务上的评估指标，特别是NDCG@10等排序质量度量。使用时应遵循临床伦理规范，注意区分不同医学专科的数据分布特性，并参考基准测试中揭示的模态融合策略进行模型优化。

背景与挑战

背景概述

随着医学人工智能技术的快速发展，多模态数据在临床诊疗中的整合需求日益凸显。M3Retrieve作为首个面向医学领域的大规模多模态检索基准数据集，由跨国研究团队于2025年提出，旨在系统评估文本-图像检索模型在医疗场景中的性能。该数据集整合了22个经过专业筛选的子数据集，覆盖16个医学专科领域，包含超过120万份文本文档与16.4万组多模态查询，通过五个临床导向的检索任务构建起标准化评估体系，为医疗信息检索研究提供了重要的实验平台。

当前挑战

医学多模态检索面临领域特有的复杂性挑战：在问题层面，需克服医学术语语义歧义、影像特征与文本描述的细粒度对齐、以及跨专科知识融合等难题；在构建过程中，团队需解决多源数据标准化处理、临床隐私保护与伦理合规、医学专家标注一致性保障等技术瓶颈，同时确保不同模态数据在病理机制层面的语义统一性。

常用场景

经典使用场景

在医学信息检索领域，M3Retrieve数据集通过构建多模态查询与大规模医学文献的关联，为视觉上下文检索、病例研究匹配等核心任务提供了标准化评估框架。其整合的164,000组多模态查询覆盖了放射影像解读、病理图谱对照等典型临床场景，使模型能够模拟医生在诊断过程中同步参考影像资料与文献证据的决策流程。

实际应用

在临床决策支持系统中，M3Retrieve支撑的检索技术可实现影像报告自动关联医学文献，辅助医生快速获取相关病例研究。其多模态摘要检索功能能整合患者影像与主诉信息，生成个性化诊疗参考，在远程医疗、医学教育等场景中提升信息获取效率。

衍生相关工作

基于该基准已衍生出MM-Embed等多模态嵌入模型在视觉上下文检索任务中达到45.47%NDCG指标，NV-Embed则在文本密集型任务保持领先。后续研究进一步探索了医学特定领域的跨模态预训练策略，推动BLIP、CLIP等通用模型在医疗场景的精细化适配。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集