MedVidCL 和 MedVidQA

Name: MedVidCL 和 MedVidQA
Creator: 国立医学图书馆生物医学传播分部
Published: 2022-01-31 02:06:31
License: 暂无描述

arXiv2022-01-31 更新2024-06-21 收录

下载链接：

https://github.com/deepaknlp/MedVidQACL

下载链接

链接失效反馈

官方服务：

资源简介：

MedVidCL 和 MedVidQA 数据集由国立医学图书馆生物医学传播分部创建，旨在支持医学视频分类和问答系统的研究。MedVidCL 包含6,617个视频，分为医学教学、非医学教学和其他类别；MedVidQA 则包含3,010个与健康相关的问题及其视觉答案的时间戳，源自可信视频源。数据集创建过程中，采用了专家标注和机器学习模型预测相结合的方法，确保数据质量。这些数据集主要应用于医学教育和紧急医疗情况下的决策支持，旨在通过视觉和语言的结合，提供更有效的医疗信息传递和理解。

MedVidCL and MedVidQA datasets were developed by the Biomedical Communications Division of the National Library of Medicine, with the goal of supporting research on medical video classification and question answering systems. MedVidCL consists of 6,617 videos categorized into three groups: medical instructional, non-medical instructional, and other categories. MedVidQA contains 3,010 health-related questions paired with timestamps marking their corresponding visual answers, sourced from reliable video sources. During the dataset construction process, a hybrid approach combining expert annotation and machine learning model prediction was employed to ensure data quality. These datasets are primarily applied in medical education and emergency medical decision support, aiming to facilitate more effective medical information dissemination and comprehension through the integration of visual and linguistic modalities.

提供机构：

国立医学图书馆生物医学传播分部

创建时间：

2022-01-31

搜集汇总

数据集介绍

构建方式

在医学视频理解领域，构建高质量标注数据集面临跨模态对齐的挑战。MedVidCL与MedVidQA数据集的构建采用了系统化的分层标注流程。MedVidQA通过从WikiHow提取医疗任务清单，经医学信息学专家筛选后，利用YouTube API检索相关视频，再由专家标注视频类别并构建带时间戳的问答对。MedVidCL则采用两阶段策略：首先利用MedVidQA的标注视频训练集成分类器，结合BigBird模型与支持向量机；随后对HowTo100M和YouTube8M数据集的视频进行自动分类，仅保留高置信度预测结果，最终由专家进行人工验证与修正，确保标注准确性。

使用方法

该数据集支持医疗视频理解领域的两项核心任务。对于医学视频分类任务，研究者可利用MedVidCL训练跨模态分类模型，通过视频字幕或视觉特征识别视频的医学教学属性。在医疗视觉答案定位任务中，MedVidQA提供了自然语言问题与视频片段的对应关系，可用于训练时序定位模型，实现基于问题的视频片段检索。基准实验表明，集成BigBird的语言模型在分类任务中表现优异，而基于跨度预测的视觉定位模型在答案定位任务中展现出潜力。数据集已划分训练、验证与测试集，支持端到端模型开发与评估。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，多模态理解技术正成为提升临床决策与公众健康素养的关键驱动力。由美国国立卫生研究院下属的利斯特·希尔国家生物医学通讯中心研究人员于2022年创建的MedVidCL与MedVidQA数据集，标志着医疗教学视频理解研究迈入新阶段。该数据集聚焦于医疗教学视频分类与视觉问答定位两大核心任务，旨在构建能够解析医疗视频内容并以视觉形式回应自然语言查询的智能系统。通过整合6,117个标注视频与3,010对带时间戳的问答数据，该数据集为开发面向急救、医疗教育与临床支持的跨模态应用奠定了坚实基础，对推动医疗人工智能从理论走向实践具有深远影响。

当前挑战

该数据集致力于解决医疗视觉问答定位与视频分类的复杂挑战。在领域问题层面，医疗视频的语义理解需克服专业术语密集、操作步骤精细及跨模态对齐困难等障碍，要求模型具备从冗长视频中精准定位并解释特定医疗操作的能力。构建过程中，研究人员面临多重挑战：首先，确保视频来源的可靠性与教学价值需依赖医学信息学专家进行多轮人工筛选与标注；其次，从海量网络视频中提取高质量教学片段并生成与之匹配的医学问题，涉及复杂的语义匹配与时间戳标注；此外，数据集的类别平衡与标注一致性维护亦需精细设计验证机制，以保障其在真实医疗场景中的实用性与鲁棒性。

常用场景

经典使用场景

在医学人工智能领域，跨模态理解正成为提升医疗信息检索与教育效能的关键路径。MedVidCL与MedVidQA数据集的经典应用场景聚焦于医学教学视频的智能处理，具体体现在两个核心任务：医学视频分类与医学视觉答案定位。研究者利用该数据集训练模型，使其能够自动判别视频是否属于医学教学性质，并针对自然语言提出的医学操作问题，在长视频中精准定位并返回包含答案的特定时间片段。这种应用范式极大地优化了从海量医学视频中提取结构化知识的流程，为构建智能医学问答系统奠定了数据基础。

解决学术问题

该数据集有效应对了医学人工智能研究中若干关键挑战。首要解决了医学视频领域缺乏高质量、细粒度标注数据的问题，为跨模态（语言-视觉）理解研究提供了可靠的基准。其次，它定义了医学视觉答案定位这一新颖任务，推动研究超越传统的文本答案生成，转向对视频时序内容的精准理解与定位。这要求模型具备深层次的语义对齐能力，即理解自然语言问题与视频视觉内容之间的复杂关联，从而促进了多模态融合、时序推理等核心算法的发展，对提升AI系统在专业领域的认知与交互能力具有重要意义。

实际应用

在实际应用层面，该数据集支撑的系统有望变革公众健康信息获取与医学继续教育模式。例如，在急救场景中，公众可通过自然语言询问“如何为指尖断离伤放置止血带”，系统能即刻检索并高亮播放相关教学视频中的关键操作片段，提供直观的视觉指导，弥补纯文字说明的不足。对于医学生或临床医师，该系统可作为高效的技能培训工具，快速定位复杂手术或检查手法中的特定步骤。此外，它还能集成于健康信息平台或临床决策支持系统，增强其多媒体内容的理解与推荐能力，提升健康科普的准确性与可及性。

数据集最近研究