yh0701/FracAtlas_dataset|医学影像数据集|骨折检测数据集
收藏数据集卡片:FracAtlas
概述
"FracAtlas" 数据集是一个包含用于骨骨折分类、定位和分割的肌肉骨骼放射图像集合。该数据集包含 4,083 张 X 射线图像(其中 717 张为骨折图像),并附有多种格式的相应注释,包括 COCO、VGG、YOLO 和 Pascal VOC 格式。数据集旨在用于医学影像中的深度学习任务,特别是针对骨骨折的理解。
数据集来源
数据集的源数据托管在 Figshare 上,这是一个在线数字存储库,研究人员可以在其中保存和分享他们的研究成果,包括数据集。FracAtlas 数据集根据 CC-BY 4.0 许可证自由访问,允许在科学界广泛使用,特别是在医学影像及相关领域的研究人员和从业者中。
用途
"FracAtlas" 数据集可用于开发多种机器学习或深度学习算法,例如:
- 开发深度学习模型以自动检测放射图像中的骨折。
- 使用机器学习模型对骨折类型(如发丝状、复合状、横向)进行分类。
- 实施分割模型以从放射图像中的周围组织中描绘骨骼结构。
- 根据骨折特征和其他患者数据预测患者的结果。
- 开发模型以识别放射图像中骨骼的异常模式。
数据集结构
原始数据集架构
原始 zip 文件包含 3 个子文件夹“images”、“Annotations”、“utilities”和一个“dataset.csv”文件。
- images 文件夹:包含“Fractured”和“Non-fractured”两个子文件夹,每个图像以 JPG 格式存储在相应的文件夹中。
- Annotations 文件夹:包含“COCO JSON”、“PASCAL VOC”、“VGG JSON”和“YOLO”四个子文件夹,注释存储在相应的文件夹中。
- utilities 文件夹:包含多个编程脚本,用于将原始文件转换为更易读的格式。
- dataset.csv:包含每个图像的许多基本变量,如
image_id
、hand
、leg
、hip
、shoulder
、mixed
、hardware
、multiscan
、fractured
、fracture_count
、frontal
、lateral
、oblique
等。
更新后的数据集架构
在 Hugging Face 数据集加载器中,从原始“dataset.csv”中提取并修改了某些现有变量,以适应 Huggingface 特征类。其他重要变量从“FracAtlas” zip 文件中的其他下载文件中提取,以呈现更系统化和干净的 FracAtlas 数据集。
数据集创建理由
FracAtlas 数据集的创建是由训练用于骨折检测的机器学习模型的需求驱动的。该数据集旨在填补用于推进 AI 辅助诊断工具的带注释肌肉骨骼放射图像的可用性缺口。
源数据
初始阶段收集了 14,068 张 X 射线图像。由于隐私问题,所有 DICOM 图像都被赋予了一个任意的图像名称并转换为 JPG 图像格式。这些转换使用相应的 X 射线机器的专有软件完成。
注释
数据集包含 4,083 张图像,这些图像已由两名专业放射科医生手动注释,用于骨骨折分类、定位和分割。注释后来由一名整形外科医生使用开源标记平台 makesense.ai 进行验证和合并。注释类型包括 COCO JSON、PASCAL VOC、VGG JSON 和 YOLO。
偏差、风险和限制
尽管 FracAtlas 数据集对于计算机辅助诊断系统的发展特别有价值,但其潜在的限制应仔细考虑。首先,手动注释过程容易受到人为错误的影响,可能导致标签错误。
引用
Abedeen, I., Rahman, M. A., Prottyasha, F. Z., Ahmed, T., Chowdhury, T. M., & Shatabda, S. (2023). FracAtlas: A Dataset for Fracture Classification, Localization and Segmentation of Musculoskeletal Radiographs. Scientific data, 10(1), 521. https://doi.org/10.1038/s41597-023-02432-4

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录
M4-SAR
M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录