医学影像质量控制标准化数据集

Name: 医学影像质量控制标准化数据集
Creator: 东南大学医学院，江苏省人工智能影像与介入放射学重点实验室培育中心，南京，中国
Published: 2025-03-10 16:16:18
License: 暂无描述

arXiv2025-03-10 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07032v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个标准化的医学影像质量控制数据集，包含161张胸部X射线照片和219份结构化的CT报告。数据集由东南大学医学院放射科提供，覆盖了从2023年1月到2024年12月的时间段。数据集经过严格的脱敏处理，确保患者信息的匿名化。该数据集用于评估大型语言模型在医学影像质量评估和报告标准化方面的性能。

This study constructed a standardized medical imaging quality control dataset comprising 161 chest X-ray images and 219 structured CT reports. Provided by the Department of Radiology, School of Medicine, Southeast University, the dataset covers the period from January 2023 to December 2024. It has undergone strict de-identification processing to ensure the anonymization of patient information, and is used to evaluate the performance of large language models in medical imaging quality assessment and report standardization.

提供机构：

东南大学医学院，江苏省人工智能影像与介入放射学重点实验室培育中心，南京，中国

创建时间：

2025-03-10

搜集汇总

数据集介绍

构建方式

本研究构建了一个包含161张胸片和219份CT报告的数据集，用于评估大型语言模型在图像质量评估和报告标准化方面的性能。数据集的构建遵循了严格的匿名化和质量控制标准，以确保数据的完整性和临床相关性。研究小组由五位具有超过15年临床经验的放射科医生监督，确保数据收集的准确性和完整性。所有医学报告都遵循了一个标准化的文档框架，包括客观的影像发现和印象两个主要组成部分。数据迁移过程采用了医院批准的加密传输协议，并在传输过程中使用了SHA-256完整性验证来维护数据真实性。为了确保遵守HIPAA标准和机构审查委员会的指南，研究实施了一个多阶段去识别流程，包括DICOM头部匿名化和报告净化。

使用方法

使用该数据集时，需要首先对数据进行匿名化和质量控制，以确保数据的完整性和可靠性。然后，可以采用多种评估指标，如召回率、精确率和F1分数，来评估大型语言模型在图像质量评估和报告标准化方面的性能。此外，还可以采用多阶段评估框架，包括自动化、AI辅助和专家驱动的方法，来验证注释的真实性。最后，可以通过设计临床相关的查询-响应对来模拟真实世界的质量控制流程，以评估大型语言模型在实际应用中的性能。

背景与挑战

背景概述

医学影像质量控制（QC）对于确保诊断的准确性至关重要。传统的QC方法依赖于人工审查，这种方法耗时、费力且易受主观偏见影响。为了解决这一挑战，本研究建立了一个标准化的医学影像QC数据集和评估框架，系统地评估了大型语言模型（LLMs）在图像质量评估和报告标准化方面的表现。该数据集包含了161张胸片和219份CT报告，并利用多种LLMs进行了评估，包括Gemini 2.0-Flash、GPT-4o和DeepSeek-R1。实验结果表明，Gemini 2.0-Flash在CXR任务中实现了90的Macro F1分数，展示了强大的泛化能力，但在细粒度性能方面有限。DeepSeek-R1在CT报告审计中表现出色，召回率达到62.23%，超过了其他模型。这些发现突出了LLMs在医学影像QC中的潜力，DeepSeek-R1和Gemini 2.0-Flash展示了优异的性能。

当前挑战

尽管LLMs在医学影像QC方面展现出潜力，但它们面临着一些挑战。首先，由于模型架构、训练数据和技术的差异，LLMs的性能差异很大。其次，缺乏由经验丰富的放射科医生标注的标准数据集和多模态评估框架，阻碍了LLMs在该领域的进一步优化和实际应用。此外，当前数据集主要来自单一机构，可能引入区域或设备偏差，限制了模型的泛化能力。最后，数据集目前仅限于中文报告，这可能限制了其在全球临床环境中的应用。为了解决这些挑战，未来的研究应专注于扩大数据集的大小和多样性，包括更多成像模式（如MRI、超声）和更广泛的QC问题，包括英语报告和多模态报告，这些报告整合了文本、图像和其他数据格式。此外，开发特定领域的评估框架以增强模型性能至关重要。

常用场景

经典使用场景

医学影像质量控制标准化数据集主要用于评估大型语言模型（LLMs）在影像质量评估和报告标准化方面的性能。通过对161张胸部X光片和219份CT报告进行评估，该数据集帮助研究者测试了多种LLMs，包括Gemini 2.0-Flash、GPT-4o和DeepSeek-R1，并基于召回率、精确率和F1分数来检测技术错误和不一致性。实验结果表明，Gemini 2.0-Flash在CXR任务中实现了90的宏F1分数，表现出强大的泛化能力但细粒度性能有限。DeepSeek-R1在CT报告审计中表现出色，召回率达到62.23%，优于其他模型。然而，其蒸馏变体表现不佳，而InternLM2.5-7B-chat则显示出最高的额外发现率，表明更广泛但不太精确的错误检测能力。这些发现突出了LLMs在医学影像质量控制中的潜力，其中DeepSeek-R1和Gemini 2.0-Flash表现出优异的性能。

解决学术问题

该数据集解决了医学影像质量控制的传统方法劳动密集和主观性强的挑战。通过提供标准化的评估框架和多模态数据集，该数据集填补了影像质量控制领域的空白，为开发高效可靠的智能质量控制工具奠定了基础。此外，该数据集为LLMs在医学影像领域的应用提供了创新解决方案，有助于优化临床工作流程并提高医疗效率和品质。

实际应用

医学影像质量控制标准化数据集在实际应用中，可帮助医疗机构和研究人员通过自动化手段进行影像质量评估和报告标准化，从而减轻放射科医生的工作负担，提高诊断准确性。此外，该数据集还可用于开发智能质量控制工具，辅助放射科医生进行影像分析和报告解读，进一步优化临床工作流程。

数据集最近研究