yh0701/FracAtlas_dataset|医学影像数据集|骨折检测数据集
收藏数据集卡片:FracAtlas
概述
"FracAtlas" 数据集是一个包含用于骨骨折分类、定位和分割的肌肉骨骼放射图像集合。该数据集包含 4,083 张 X 射线图像(其中 717 张为骨折图像),并附有多种格式的相应注释,包括 COCO、VGG、YOLO 和 Pascal VOC 格式。数据集旨在用于医学影像中的深度学习任务,特别是针对骨骨折的理解。
数据集来源
数据集的源数据托管在 Figshare 上,这是一个在线数字存储库,研究人员可以在其中保存和分享他们的研究成果,包括数据集。FracAtlas 数据集根据 CC-BY 4.0 许可证自由访问,允许在科学界广泛使用,特别是在医学影像及相关领域的研究人员和从业者中。
用途
"FracAtlas" 数据集可用于开发多种机器学习或深度学习算法,例如:
- 开发深度学习模型以自动检测放射图像中的骨折。
- 使用机器学习模型对骨折类型(如发丝状、复合状、横向)进行分类。
- 实施分割模型以从放射图像中的周围组织中描绘骨骼结构。
- 根据骨折特征和其他患者数据预测患者的结果。
- 开发模型以识别放射图像中骨骼的异常模式。
数据集结构
原始数据集架构
原始 zip 文件包含 3 个子文件夹“images”、“Annotations”、“utilities”和一个“dataset.csv”文件。
- images 文件夹:包含“Fractured”和“Non-fractured”两个子文件夹,每个图像以 JPG 格式存储在相应的文件夹中。
- Annotations 文件夹:包含“COCO JSON”、“PASCAL VOC”、“VGG JSON”和“YOLO”四个子文件夹,注释存储在相应的文件夹中。
- utilities 文件夹:包含多个编程脚本,用于将原始文件转换为更易读的格式。
- dataset.csv:包含每个图像的许多基本变量,如
image_id
、hand
、leg
、hip
、shoulder
、mixed
、hardware
、multiscan
、fractured
、fracture_count
、frontal
、lateral
、oblique
等。
更新后的数据集架构
在 Hugging Face 数据集加载器中,从原始“dataset.csv”中提取并修改了某些现有变量,以适应 Huggingface 特征类。其他重要变量从“FracAtlas” zip 文件中的其他下载文件中提取,以呈现更系统化和干净的 FracAtlas 数据集。
数据集创建理由
FracAtlas 数据集的创建是由训练用于骨折检测的机器学习模型的需求驱动的。该数据集旨在填补用于推进 AI 辅助诊断工具的带注释肌肉骨骼放射图像的可用性缺口。
源数据
初始阶段收集了 14,068 张 X 射线图像。由于隐私问题,所有 DICOM 图像都被赋予了一个任意的图像名称并转换为 JPG 图像格式。这些转换使用相应的 X 射线机器的专有软件完成。
注释
数据集包含 4,083 张图像,这些图像已由两名专业放射科医生手动注释,用于骨骨折分类、定位和分割。注释后来由一名整形外科医生使用开源标记平台 makesense.ai 进行验证和合并。注释类型包括 COCO JSON、PASCAL VOC、VGG JSON 和 YOLO。
偏差、风险和限制
尽管 FracAtlas 数据集对于计算机辅助诊断系统的发展特别有价值,但其潜在的限制应仔细考虑。首先,手动注释过程容易受到人为错误的影响,可能导致标签错误。
引用
Abedeen, I., Rahman, M. A., Prottyasha, F. Z., Ahmed, T., Chowdhury, T. M., & Shatabda, S. (2023). FracAtlas: A Dataset for Fracture Classification, Localization and Segmentation of Musculoskeletal Radiographs. Scientific data, 10(1), 521. https://doi.org/10.1038/s41597-023-02432-4

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
WLASL, MSASL, NMFs-CSL, SLR500, Slovo, BOBSL, 27 Class Sign Language Dataset, AUTSL, BosphorusSign22k, GSL, LSA16, LSA64, Rendered Handpose Dataset, YouTube-ASL, LSFB-ISOL, ASLLVD, AASL, KArSL, BdSLImset, HaGRID, Phoenix-2014, Phoenix-2014T
该仓库收集了多种与手语识别和翻译相关的数据集,旨在为研究者、开发者和爱好者提供一个集中的资源。数据集包括不同类型(如RGB、深度、骨骼)和来自不同国家的数据,用于支持手语识别和翻译技术的研究。
github 收录
TPTP
TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。
www.tptp.org 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录