five

yh0701/FracAtlas_dataset|医学影像数据集|骨折检测数据集

收藏
hugging_face2024-03-01 更新2024-03-04 收录
医学影像
骨折检测
下载链接:
https://hf-mirror.com/datasets/yh0701/FracAtlas_dataset
下载链接
链接失效反馈
资源简介:
FracAtlas数据集是一个用于骨折分类、定位和分割的肌肉骨骼放射影像集合。它包括4083张X射线图像(其中717张是骨折图像),并提供了多种格式的注释,如COCO、VGG、YOLO和Pascal VOC格式。该数据集旨在用于医学影像中的深度学习任务,特别是针对骨折的理解。数据集在CC-BY 4.0许可下免费提供。

FracAtlas数据集是一个用于骨折分类、定位和分割的肌肉骨骼放射影像集合。它包括4083张X射线图像(其中717张是骨折图像),并提供了多种格式的注释,如COCO、VGG、YOLO和Pascal VOC格式。该数据集旨在用于医学影像中的深度学习任务,特别是针对骨折的理解。数据集在CC-BY 4.0许可下免费提供。
提供机构:
yh0701
原始信息汇总

数据集卡片:FracAtlas

概述

"FracAtlas" 数据集是一个包含用于骨骨折分类、定位和分割的肌肉骨骼放射图像集合。该数据集包含 4,083 张 X 射线图像(其中 717 张为骨折图像),并附有多种格式的相应注释,包括 COCO、VGG、YOLO 和 Pascal VOC 格式。数据集旨在用于医学影像中的深度学习任务,特别是针对骨骨折的理解。

数据集来源

数据集的源数据托管在 Figshare 上,这是一个在线数字存储库,研究人员可以在其中保存和分享他们的研究成果,包括数据集。FracAtlas 数据集根据 CC-BY 4.0 许可证自由访问,允许在科学界广泛使用,特别是在医学影像及相关领域的研究人员和从业者中。

用途

"FracAtlas" 数据集可用于开发多种机器学习或深度学习算法,例如:

  1. 开发深度学习模型以自动检测放射图像中的骨折。
  2. 使用机器学习模型对骨折类型(如发丝状、复合状、横向)进行分类。
  3. 实施分割模型以从放射图像中的周围组织中描绘骨骼结构。
  4. 根据骨折特征和其他患者数据预测患者的结果。
  5. 开发模型以识别放射图像中骨骼的异常模式。

数据集结构

原始数据集架构

原始 zip 文件包含 3 个子文件夹“images”、“Annotations”、“utilities”和一个“dataset.csv”文件。

  • images 文件夹:包含“Fractured”和“Non-fractured”两个子文件夹,每个图像以 JPG 格式存储在相应的文件夹中。
  • Annotations 文件夹:包含“COCO JSON”、“PASCAL VOC”、“VGG JSON”和“YOLO”四个子文件夹,注释存储在相应的文件夹中。
  • utilities 文件夹:包含多个编程脚本,用于将原始文件转换为更易读的格式。
  • dataset.csv:包含每个图像的许多基本变量,如 image_idhandleghipshouldermixedhardwaremultiscanfracturedfracture_countfrontallateraloblique 等。

更新后的数据集架构

在 Hugging Face 数据集加载器中,从原始“dataset.csv”中提取并修改了某些现有变量,以适应 Huggingface 特征类。其他重要变量从“FracAtlas” zip 文件中的其他下载文件中提取,以呈现更系统化和干净的 FracAtlas 数据集。

数据集创建理由

FracAtlas 数据集的创建是由训练用于骨折检测的机器学习模型的需求驱动的。该数据集旨在填补用于推进 AI 辅助诊断工具的带注释肌肉骨骼放射图像的可用性缺口。

源数据

初始阶段收集了 14,068 张 X 射线图像。由于隐私问题,所有 DICOM 图像都被赋予了一个任意的图像名称并转换为 JPG 图像格式。这些转换使用相应的 X 射线机器的专有软件完成。

注释

数据集包含 4,083 张图像,这些图像已由两名专业放射科医生手动注释,用于骨骨折分类、定位和分割。注释后来由一名整形外科医生使用开源标记平台 makesense.ai 进行验证和合并。注释类型包括 COCO JSON、PASCAL VOC、VGG JSON 和 YOLO。

偏差、风险和限制

尽管 FracAtlas 数据集对于计算机辅助诊断系统的发展特别有价值,但其潜在的限制应仔细考虑。首先,手动注释过程容易受到人为错误的影响,可能导致标签错误。

引用

Abedeen, I., Rahman, M. A., Prottyasha, F. Z., Ahmed, T., Chowdhury, T. M., & Shatabda, S. (2023). FracAtlas: A Dataset for Fracture Classification, Localization and Segmentation of Musculoskeletal Radiographs. Scientific data, 10(1), 521. https://doi.org/10.1038/s41597-023-02432-4

AI搜集汇总
数据集介绍
main_image_url
构建方式
FracAtlas数据集的构建基于对14,068张X射线图像的精心筛选与处理,最终形成了包含4,083张图像的骨科放射影像集合。这些图像主要涵盖手、腿、髋关节和肩部区域,并经过严格的隐私保护措施,将DICOM格式的图像转换为JPG格式,去除了敏感的元数据信息。数据集的构建过程中,特别注重了骨折图像的分类、定位和分割,提供了多种格式的标注,包括COCO、PASCAL VOC、VGG和YOLO,以满足不同深度学习任务的需求。
特点
FracAtlas数据集的显著特点在于其丰富的标注信息和多样化的图像格式,涵盖了骨折分类、定位和分割等多个任务。数据集包含717张骨折图像,并提供了详细的分割、边界框和区域信息,适用于多种医学影像分析任务。此外,数据集还包含了关于图像中是否存在手、腿、髋关节、肩部等部位的二元指示符,以及图像的朝向和是否包含医疗硬件等信息,为模型训练提供了多维度的特征支持。
使用方法
FracAtlas数据集可用于开发多种机器学习和深度学习算法,如自动检测骨折、分类骨折类型、分割骨骼结构等。使用者可以通过Hugging Face的`datasets`加载器轻松获取数据集,并利用提供的图像和标注信息进行模型训练和评估。数据集的结构清晰,标注信息丰富,适合用于医学影像分析领域的研究与应用,特别是骨折检测和诊断相关任务。
背景与挑战
背景概述
FracAtlas数据集是由Iftekharul Abedeen、Md. Ashiqur Rahman等研究人员于2023年创建的,专注于骨科放射影像的骨折分类、定位和分割任务。该数据集包含4,083张X光片,其中717张带有骨折标注,涵盖多种格式(如COCO、VGG、YOLO和Pascal VOC)的详细标注。FracAtlas的构建旨在填补医学影像领域中高质量、标注精细的骨科数据集的空白,推动AI辅助诊断工具的发展,特别是在骨折检测和分类方面。该数据集的发布对医学影像分析领域具有重要意义,为研究人员提供了宝贵的资源,以提升骨折诊断的准确性和效率。
当前挑战
FracAtlas数据集在构建过程中面临多项挑战。首先,数据集的标注过程依赖于人工操作,容易引入误差,导致部分图像的标注不准确。其次,尽管数据集主要针对骨折图像进行标注,但部分非骨折图像也包含标注信息,而某些骨折图像却缺少相应的标注,这可能影响模型的训练效果。此外,数据集中包含多种类型的标注格式,增加了数据处理的复杂性。最后,数据集的使用需要具备医学和放射学领域的专业知识,以正确理解和解释结果,避免因标注错误或理解偏差导致的误判。
常用场景
经典使用场景
FracAtlas数据集在骨科医学影像领域具有广泛的应用场景,尤其在骨折检测、分类和分割任务中表现突出。该数据集包含了4,083张X光片,其中717张带有骨折标注,适用于开发深度学习模型以自动识别骨折。此外,数据集还提供了详细的分割和定位信息,支持构建模型以区分不同类型的骨折(如线性骨折、复合骨折等),并实现骨骼结构的精确分割。
衍生相关工作
FracAtlas数据集的发布催生了一系列相关研究工作,特别是在医学影像分析和骨折检测领域。研究人员利用该数据集开发了多种深度学习模型,用于骨折的自动检测、分类和分割。此外,该数据集还激发了对医学影像标注方法的改进研究,以及对骨折检测算法性能的进一步优化。这些工作不仅提升了骨折诊断的准确性,还为医学影像数据的标注和处理提供了新的思路。
数据集最近研究
最新研究方向
在医学影像领域,FracAtlas数据集的最新研究方向主要集中在利用深度学习技术进行骨折的自动检测、分类和分割。该数据集通过提供详细的X射线图像和多格式标注,支持开发高效的骨折诊断算法。前沿研究包括构建能够识别不同类型骨折(如线性、复合、横向骨折)的分类模型,以及实现骨骼结构从周围组织中精确分割的分割模型。此外,研究者还探索了基于骨折特征和患者数据的预后预测模型,以提升临床决策的准确性。FracAtlas数据集的应用不仅推动了AI辅助诊断工具的发展,还为医学影像分析提供了宝贵的资源,有助于提高骨折诊断的效率和精度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录