five

MedSAM2|医学影像分割数据集|计算机视觉数据集

收藏
arXiv2025-04-05 更新2025-04-08 收录
医学影像分割
计算机视觉
下载链接:
http://arxiv.org/abs/2504.03600v1
下载链接
链接失效反馈
资源简介:
MedSAM2数据集是一个大规模的3D医学影像和视频数据集,由超过455,000个3D图像-掩膜对和76,000个标注视频帧组成,涵盖了多种器官、病理和成像协议。该数据集是由AI Collaborative Centre和Harvard Medical School等机构合作创建的,用于支持3D医学影像和视频的分割任务。数据集内容多样,包括CT、PET、MRI等模态的图像和超声波、内窥镜视频,旨在推动医学影像分割技术的发展,特别是在精确医疗领域中的应用。
提供机构:
加拿大University Health Network, 美国Harvard Medical School
创建时间:
2025-04-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedSAM2数据集的构建基于大规模医学影像数据的精细标注与深度学习方法的应用。研究团队通过整合公开数据集,收集了超过455,000个3D图像-掩码对和76,000帧视频数据,覆盖CT、PET、MRI等多种成像模态。数据预处理包括强度调整、归一化和重采样等步骤,以确保数据的一致性和质量。此外,采用人机协同标注流程,通过迭代优化模型性能,显著提升了标注效率。模型架构基于SAM2,通过微调策略适应医学影像特点,包括图像编码器、提示编码器、记忆注意力模块和掩码解码器的优化配置。
特点
MedSAM2数据集以其多样性和规模著称,涵盖了广泛的器官、病变和成像模态,为3D医学影像和视频分割提供了全面的基准。数据集不仅包含大量标注数据,还通过人机协同标注流程实现了高质量的标注结果,标注时间减少了85%以上。其特点在于结合了空间和时间连续性,能够处理动态视频数据,并在多种复杂场景下表现出色。此外,数据集支持多平台部署,便于研究者和临床医生使用。
使用方法
MedSAM2数据集的使用方法灵活多样,适用于多种应用场景。用户可以通过3D Slicer插件、命令行终端、JupyterLab、Colab和Gradio等平台进行交互式或批量处理。数据集支持提示式分割,用户可通过绘制边界框或点提示来指定目标区域,模型将自动生成高质量的分割结果。对于视频数据,模型利用记忆注意力模块实现帧间一致性分割。此外,数据集还支持迭代标注流程,用户可通过反馈优化模型性能,适用于大规模标注任务。详细的使用指南和代码已在开源平台发布,便于用户快速上手。
背景与挑战
背景概述
MedSAM2是由多伦多大学健康网络AI协作中心、哈佛医学院生物医学信息学系等机构的研究团队于2025年提出的三维医学图像与视频分割基础模型。该模型基于Segment Anything Model 2(SAM2)架构,通过在大规模医学数据集上的微调,实现了对455,000个三维图像-掩膜对和76,000帧视频的精准分割。医学图像分割在解剖结构分析、疾病诊断和手术规划等临床应用中具有关键作用,而传统方法多局限于二维图像或特定模态。MedSAM2的诞生标志着医学图像分析从专用模型向通用基础模型的范式转变,其创新性的人机协同标注流程将人工标注成本降低85%以上,显著推进了精准医疗的发展。
当前挑战
在领域问题层面,MedSAM2需解决三维医学数据特有的三大挑战:跨模态器官与病变的异质性分割、体积数据中的空间连续性建模、以及动态视频的时序一致性保持。构建过程中面临数据稀缺性困境,需协调八家机构获取多中心数据,处理CT/MRI/PET等模态间的强度分布差异。技术实现上存在三维编码器设计难题,需在保持SAM2预训练权重的同时,通过分层视觉变换器实现长程依赖捕获。标注环节涉及5,000个CT病灶和251,550帧超声视频的人工校验,其质量控制的复杂度随数据规模呈指数级增长。
常用场景
经典使用场景
在医学影像分析领域,MedSAM2数据集被广泛应用于三维医学图像和视频的分割任务。其经典使用场景包括对CT、MRI和PET等多种模态的医学图像进行器官、病灶的精确分割。通过结合人类专家标注和大规模自动化处理,该数据集显著提升了分割任务的效率和准确性,尤其在处理复杂解剖结构和动态视频数据时表现出色。
实际应用
在实际临床应用方面,MedSAM2数据集支持多种医疗场景,如肿瘤定量评估、手术规划以及治疗反应监测。其集成的用户友好界面和云端部署能力使其能够无缝融入医院工作流程,辅助放射科医生和临床研究人员进行高效、精确的图像分析。特别是在心脏超声和内窥镜视频分析中,该数据集的技术显著提升了动态结构分割的准确性和效率。
衍生相关工作
基于MedSAM2数据集,衍生出了一系列重要的研究工作。其中包括对Segment Anything Model (SAM)在医学领域的适配研究,如MedSAM和SAM-Med等模型。这些工作不仅扩展了基础模型在医学影像中的应用范围,还推动了交互式三维分割、多模态融合分割等新方向的发展。此外,该数据集还促进了医学影像标注工具和平台的创新,为后续研究提供了宝贵的技术积累。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录