MURA v1.1
收藏github2026-03-24 更新2026-03-29 收录
下载链接:
https://github.com/srhn45/mura-fusion
下载链接
链接失效反馈官方服务:
资源简介:
MURA v1.1(斯坦福ML组)——一个大规模肌肉骨骼放射学影像数据集。包含训练集13,457项研究(36,808张图像)和验证集1,199项研究(3,197张图像)。涵盖七个身体部位类别:肩部、肱骨、肘部、前臂、腕部、手部、手指。每项研究包含可变数量的图像(通常2-5个视图)和一个单一的二分类标签(正常/异常)。数据集表现出中等的类别不平衡(约40%异常),且不同类别间差异显著。
MURA v1.1 (Stanford ML Group) is a large-scale musculoskeletal radiography dataset. It comprises 13,457 training studies (36,808 images) and 1,199 validation studies (3,197 images). The dataset covers seven anatomical body part categories: shoulder, humerus, elbow, forearm, wrist, hand, and finger. Each study contains a variable number of images (typically 2 to 5 views) and a single binary label (normal/abnormal). The dataset exhibits moderate class imbalance, with approximately 40% of samples labeled as abnormal, and shows significant discrepancies across different body part categories.
创建时间:
2026-02-28
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称:MURA v1.1
- 来源:Stanford ML Group
- 类型:大规模肌肉骨骼X光片数据集
- 主要用途:用于肌肉骨骼异常检测的自动分类研究。
数据规模与划分
| 数据划分 | 研究(Studies)数量 | 图像(Images)数量 |
|---|---|---|
| 训练集(Train) | 13,457 | 36,808 |
| 验证集(Valid) | 1,199 | 3,197 |
数据内容与结构
- 身体部位类别:共7个类别,分别为
SHOULDER(肩)、HUMERUS(肱骨)、ELBOW(肘)、FOREARM(前臂)、WRIST(腕)、HAND(手)、FINGER(手指)。 - 研究单元:每个研究(Study)包含同一解剖部位的可变数量图像(通常为2-5个视图)。
- 标签:每个研究有一个单一的二元标签(正常 / 异常)。
- 类别不平衡:数据集整体表现出中度的类别不平衡(约40%为异常),且不同类别间的异常比例差异显著。
关键特征
- 数据集专注于肌肉骨骼放射学图像。
- 每个研究包含多视图图像,支持研究级别的多图像融合与推理。
- 提供了明确的训练/验证划分,便于模型训练与评估。
相关参考
- 原始论文:Rajpurkar, P., Irvin, J., Ball, R. L., Zhu, K., Yang, B., Mehta, H., ... & Lungren, M. P. (2018). Mura: Large dataset for abnormality detection in musculoskeletal radiographs. arXiv:1712.06957.
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,MURA v1.1数据集作为一项大规模肌肉骨骼X射线研究资源,其构建过程体现了严谨的学术规范。该数据集由斯坦福大学机器学习团队精心收集与标注,涵盖了肩部、肱骨、肘部、前臂、手腕、手部和手指等七个关键身体区域。数据采集基于真实的临床放射学研究,每个研究包含可变数量的X射线图像,通常为2至5个不同视角,并附有单一的二元标签,用于指示正常或异常状态。数据集的划分遵循科学原则,训练集包含13,457项研究和36,808张图像,验证集则包含1,199项研究和3,197张图像,确保了模型训练与评估的可靠性。
特点
MURA v1.1数据集在肌肉骨骼异常检测领域展现出独特的技术特点。其核心在于将每个放射学研究视为一个图像包,支持可变数量的图像输入,这模拟了临床诊断中多视角分析的实际场景。数据集整体呈现出适度的类别不平衡,异常样本约占40%,且不同身体区域间的分布差异显著,这为模型鲁棒性提供了挑战。数据集的图像均为灰度X射线影像,要求模型具备从单通道输入中提取丰富语义信息的能力。此外,数据集的标注专注于研究级别的二元分类,强调了跨图像融合与整体推理的重要性,为先进注意力机制的应用提供了理想平台。
使用方法
在应用MURA v1.1数据集进行肌肉骨骼异常检测时,研究者需遵循一套系统化的技术流程。数据集通常用于训练端到端的深度学习模型,这些模型需要处理可变长度的图像序列并输出研究级别的分类结果。典型的使用方法涉及加载数据后,通过共享的骨干网络提取每张图像的特征,随后采用门控空间注意力池化机制聚焦于关键区域,再通过跨图像注意力融合模块整合多视角信息,最终经由针对每个身体区域独立设计的分类器产生预测。训练过程中常采用焦点损失函数以应对类别不平衡,并结合渐进解冻策略优化骨干网络参数。评估阶段则依赖科恩卡帕系数等指标,以衡量模型与放射学家诊断的一致性水平。
背景与挑战
背景概述
MURA v1.1数据集由斯坦福大学机器学习研究组于2018年创建,旨在推动肌肉骨骼放射影像的自动化异常检测研究。该数据集包含超过四万张X射线图像,覆盖肩部、肱骨、肘部、前臂、手腕、手部和手指等七个解剖区域,每项研究包含可变数量的视图并标注单一二元标签(正常或异常)。其核心研究问题聚焦于如何利用深度学习模型实现多图像层面的病理识别,通过引入研究级别的注意力融合机制,显著提升了模型在跨视图证据整合与局部特征提取方面的性能。该数据集已成为肌肉骨骼放射学人工智能领域的重要基准,为后续研究提供了丰富的标准化数据支持,并促进了计算机辅助诊断系统的发展。
当前挑战
该数据集所解决的领域问题在于肌肉骨骼X射线影像的异常检测,其挑战主要体现在多视图融合与局部病理定位的复杂性上。由于不同解剖区域的结构差异显著,模型需适应各类别的特异性诊断模式,同时处理视图数量可变且诊断信息分布不均的问题。在构建过程中,数据集面临类别不平衡的挑战,异常样本比例约40%且在不同身体区域间波动较大,这可能导致模型训练偏差。此外,原始图像的分辨率与灰度特性要求对预训练模型进行适配,以克服自然图像与医学影像间的领域差异,而小骨骼区域(如手部与手指)的病理检测因细节微小,对模型的空间感知能力提出了更高要求。
常用场景
经典使用场景
在医学影像分析领域,MURA v1.1数据集被广泛应用于肌肉骨骼X光片的异常检测研究。其经典使用场景包括利用深度学习模型对包含多个视图的放射学研究进行整体分析,通过空间注意力池化和跨图像注意力融合技术,模拟放射科医生的诊断流程,从多角度图像中综合判断是否存在异常。这种基于研究级别的多图像融合方法,显著提升了模型在复杂解剖结构下的诊断准确性,为自动化辅助诊断系统提供了关键数据支持。
解决学术问题
该数据集有效解决了医学影像分析中多图像协同诊断的学术难题。传统方法往往独立处理单张X光片,忽略了同一解剖部位多视图间的互补信息。MURA通过提供带有研究级别标签的多视图数据,使研究者能够开发端到端的多图像融合模型,探索如何从可变数量的图像中提取并整合诊断特征。这不仅推动了注意力机制在医学影像中的创新应用,还为解决类别不平衡、跨身体区域泛化等挑战提供了基准测试平台。
衍生相关工作
基于MURA数据集,学术界衍生出多项经典研究工作。斯坦福团队提出的DenseNet-169基线模型首次建立了该领域的性能基准。后续研究则深入探索了图神经网络在多视图关联建模中的应用,以及元学习策略解决小样本身体部位分类问题。近年来,结合视觉Transformer与卷积混合架构的研究成为热点,这些工作通过改进特征融合机制,持续缩小了模型与放射科医生诊断水平之间的差距。
以上内容由遇见数据集搜集并总结生成



