M3-Med

Name: M3-Med
Creator: 北京理工大学; 香港理工大学计算学系; 中国科学院深圳先进技术研究院; 中国人民解放军南部战区空军医院医工室; 深圳市中医院针灸科
Published: 2025-07-06 16:14:35
License: 暂无描述

arXiv2025-07-06 更新2025-07-09 收录

下载链接：

https://Med-M3-Dataset.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

M3-Med是一个用于评估医疗教学视频中多语言、多模态和多跳推理能力的数据集。数据集由医疗专家注释的医疗问题和相应的视频片段组成，旨在帮助模型在文本和视频之间进行深度跨模态理解和推理。数据集包括3748个视频和12747个问题，涵盖简单和复杂两种类型的问题。该数据集为人工智能模型在专业领域的深度跨模态推理提供了新的研究方向。

M3-Med is a dataset developed to evaluate the multilingual, multimodal and multi-hop reasoning capabilities of models in medical instructional videos. The dataset comprises medical questions annotated by medical experts and their corresponding video clips, aiming to enable deep cross-modal understanding and reasoning between text and video for artificial intelligence models. It includes 3,748 videos and 12,747 questions, covering both simple and complex question types. This dataset offers a novel research direction for deep cross-modal reasoning of AI models in professional domains.

提供机构：

北京理工大学; 香港理工大学计算学系; 中国科学院深圳先进技术研究院; 中国人民解放军南部战区空军医院医工室; 深圳市中医院针灸科

创建时间：

2025-07-06

原始信息汇总

M3-Med: 多语言、多模态、多跳推理医疗教学视频理解基准

摘要

首个用于医疗教学视频理解的多语言、多模态、多跳推理基准
包含医学问题和对应视频片段作为答案
问题分为简单问题和复杂问题
复杂问题需要模型构建跨模态知识图谱并进行多跳推理
实验证明对现有顶尖模型构成显著挑战

数据集获取

下载链接：M3-Med 数据集 (M3Med.zip)
文件格式：.zip
注：不提供视频下载，需根据视频ID使用pytube等工具自行下载

主要特点

多跳推理

引入需要多跳推理的复杂问题

多模态

结合视频视觉信息和文本字幕
评估跨模态理解能力

多语言

包含中文和英文两种语言

问题示例

简单问题

可直接从视频的某一连续片段中找到答案

复杂问题

需要模型整合信息并进行多跳推理

基准构建流程

视频收集：从YouTube等平台筛选医学教学视频
字幕构建：使用Whisper模型生成SRT格式字幕
问题编写与审核：由专业医生编写并严格审核
时间戳标记与校验：标记答案视频片段并通过一致性检验

搜集汇总

数据集介绍

构建方式

M3-Med数据集的构建采用了多源视频收集策略，从公开平台如YouTube和HowTo100M数据集中筛选医学教学视频，确保内容的专业性和多样性。通过Whisper模型生成高质量的字幕，并采用人工与自动化结合的方式构建知识图谱，由医学专家团队进行多轮标注和质量控制。数据标注过程分为问题编写、时间戳标记和专家审核三个阶段，确保每个问题的医学准确性、内容相关性和标签一致性。

特点

M3-Med数据集具有多语言、多模态和多跳推理的特点，涵盖中英文双语医学教学视频，并配有专业标注的知识图谱和字幕。其核心创新在于设计了简单问题和复杂问题的双层结构，复杂问题要求模型进行跨模态的多跳推理，从文本定位关键实体到视频中寻找视觉证据，最终综合信息生成答案。数据集包含3,748个视频和12,747个问题，覆盖广泛的医学主题，如急救、康复训练和疾病预防等。

使用方法

M3-Med数据集支持两种任务：单视频时序答案定位（TAGSV）和视频库时序答案定位（TAGVC）。用户可通过输入自然语言问题，模型需在视频中定位相关片段或从视频库中选择正确视频并定位片段。评估指标包括IoU阈值（0.3/0.5/0.7）和平均IoU（mIoU）。数据集适用于测试模型在多模态理解、跨语言推理和深层语义整合方面的能力，尤其适合医学教育、临床辅助等专业场景的应用验证。

背景与挑战

背景概述

M3-Med数据集由北京理工大学、香港理工大学、中国科学院深圳先进技术研究院等机构的研究团队于2025年提出，旨在推动医学教学视频的多语言、多模态与多跳推理理解研究。该数据集包含3,748个医学教学视频及12,747个专业标注的问题-答案对，支持中文和英文双语查询，其核心创新在于设计了需要跨模态推理的复杂问题，要求模型先定位文本关键实体，再关联视觉证据，最终整合信息生成答案。作为首个融合时序定位（TAGSV/TAGVC）与知识图谱推理的医学视频基准，M3-Med显著弥补了现有数据集（如NurVid、MedVid）在语言单一性和浅层推理能力上的不足，为AI在专业领域的深度语义理解设立了新标准。

当前挑战

M3-Med面临双重挑战：在领域问题层面，其需解决医学视频中跨模态语义对齐的难题，特别是当文本描述与视觉内容存在非显式关联时（如手术步骤的术语与器械操作画面的匹配）；在构建层面，数据标注需协调医学专家与算法工具的协作，包括通过Whisper模型生成字幕、基于Grounding DINO的视觉实体定位，以及人工构建知识图谱关系，这种半自动化流程在保证质量与规模平衡上面临巨大挑战。此外，多跳问题设计需严格避免模型通过字幕关键词匹配的捷径学习，这对标注一致性和问题复杂性控制提出了极高要求。

常用场景

经典使用场景

M3-Med数据集在医学教育视频理解领域具有广泛的应用场景，尤其是在多语言、多模态和多跳推理任务中。该数据集通过提供医学教学视频及其对应的多语言问题，支持模型在复杂的医学知识图谱中进行深度推理。经典使用场景包括医学学生的自主学习、临床医生的案例回顾以及医学知识的跨语言传播。通过多跳推理任务，模型需要从文本中定位关键实体，然后在视频中找到对应的视觉证据，最终综合多模态信息生成答案，这一过程模拟了真实的医学知识获取和应用过程。

解决学术问题

M3-Med数据集解决了医学视频理解中的两个主要学术问题：语言单一性和浅层推理。传统数据集多局限于英语，而M3-Med支持多语言（中文和英文），满足了全球医学信息访问的需求。此外，数据集通过设计复杂问题，要求模型进行多跳推理，避免了传统数据集中通过简单文本匹配即可回答问题的局限性。这些问题设计推动了模型在深度跨模态理解和复杂推理能力上的进步，为医学视频理解领域的研究提供了新的方向。

衍生相关工作

M3-Med数据集衍生了一系列相关研究工作，特别是在多模态和多跳推理领域。基于该数据集，研究者们开发了多种先进的模型和方法，如MutualSL、PBL、CCGS和FMALG等，这些模型在视频时序定位和多模态推理任务中表现出色。此外，数据集还推动了多模态大语言模型（如GPT-4o和Qwen2.5-VL）在医学领域的应用研究。M3-Med还为NLPCC 2023、2024和2025的共享任务提供了基础，进一步促进了医学视频理解领域的技术发展和学术交流。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集