48,434 skeletal radiographs

Name: 48,434 skeletal radiographs
Creator: 慕尼黑工业大学
Published: 2024-12-20 23:07:55
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

http://arxiv.org/abs/2412.15967v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由慕尼黑工业大学的医院PACS系统导出，包含48,434张骨骼X光片，每张图像都标注了14个常见的解剖区域。数据集的大小和标签的准确性对于医学影像分析至关重要，尤其是在低标签资源的情况下。数据集的创建过程包括从PACS系统中提取DICOM文件，并进行数据增强和清理，以提高模型的预测准确性。该数据集主要用于解剖区域分类，旨在提高医学影像数据的质量，并为未来的医学研究和机器学习应用提供高质量的数据支持。

This dataset is exported from the hospital PACS system of the Technical University of Munich, consisting of 48,434 skeletal X-ray images. Each image is annotated with 14 common anatomical regions. The size of the dataset and the accuracy of its labels are critical for medical image analysis, particularly in low-resource annotation scenarios. The dataset creation workflow includes extracting DICOM files from the PACS system, followed by data augmentation and cleaning to enhance the prediction accuracy of machine learning models. This dataset is primarily intended for anatomical region classification, with the goal of improving the quality of medical image data and providing high-quality data support for future medical research and machine learning applications.

提供机构：

慕尼黑工业大学

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

该数据集由48,434张骨骼X光片组成，这些图像从医院的PACS系统中导出，并附带相应的解剖区域标签。数据集的构建过程中，定义了14个临床实践中常见的解剖区域作为分类目标。数据集被划分为训练集（31,011张，占64%）、验证集（7,677张，占16%）和测试集（9,746张，占20%）。为了增强模型的鲁棒性，数据集还进行了图像清理和自定义数据增强，如去除图像边框、旋转校正以及手术规划仪器的随机插入等操作。

使用方法

该数据集可用于训练和验证自监督学习模型，特别是用于骨骼X光片的解剖区域分类任务。研究者可以利用该数据集进行模型的预训练，随后在少量标注数据的情况下进行微调。此外，数据集还可用于检测和纠正PACS系统中的标签错误，提高数据质量。通过集成学习方法，可以进一步提升模型的分类性能，使其在实际临床应用中具有更高的可靠性。

背景与挑战

背景概述

在现代医学诊断中，放射学技术占据了重要地位，尤其是在德国，2018年就产生了约3640万张放射图像。随着PACS（图像存档与通信系统）的广泛应用，这些海量数据为研究和诊断提供了便利。然而，这些数据中的基本元数据，如拍摄的解剖区域，可能因外部医院的记录不完整或不准确而缺失。为了解决这一问题，慕尼黑工业大学医学人工智能实验室的研究团队创建了一个包含48,434张骨骼放射图像的数据集，旨在通过自监督学习方法对14个解剖区域进行分类。该数据集的创建不仅提升了数据质量，还为低资源环境下的医院提供了有效的解决方案，推动了医学图像分析领域的发展。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，外部来源的数据往往缺乏关键的解剖区域元数据，导致数据质量参差不齐；其次，即使在同一医院内部，DICOM文件中的元数据也可能存在错误或不一致。此外，自监督学习方法在处理这些噪声数据时，如何确保模型能够准确分类并检测出错误的标签，也是一个重要的挑战。最后，如何在低标签资源的情况下，利用少量标注数据实现高精度的分类，是该数据集在实际应用中需要克服的难题。

常用场景

经典使用场景

该数据集主要用于放射图像中解剖区域的自动分类，特别是在缺乏标注或标注不准确的情况下。通过自监督学习方法，如SimCLR和BYOL，模型能够从48,434张骨骼放射图像中准确预测14个解剖区域类别。这一应用场景在医疗影像分析中尤为重要，尤其是在数据质量参差不齐的情况下，能够有效提升数据集的可用性和下游模型的可靠性。

解决学术问题

该数据集解决了医疗影像数据中常见的标注缺失或错误问题，尤其是在外部来源的数据中，解剖区域信息可能不完整或不准确。通过自监督学习方法，模型能够在仅有少量标注的情况下实现高精度分类，显著提升了数据集的质量和可用性。这不仅有助于提高医疗影像研究的准确性，还为资源有限的医疗机构提供了有效的解决方案。

实际应用

在实际应用中，该数据集可用于自动校正PACS系统中的解剖区域标签错误，提升数据质量。此外，它还可以帮助整合外部数据，自动填补缺失的解剖区域信息，从而扩大研究数据集的规模。在资源有限的医疗机构中，该模型能够减少手动标注的工作量，加速PACS系统的建立和优化。

数据集最近研究