AI Trusted Dataset

Name: AI Trusted Dataset
Creator: 约翰霍普金斯大学, 博洛尼亚大学, 意大利理工学院, NVIDIA, DKFZ, 加州大学旧金山分校, 中国科学院大学, 广东省人民医院, 伊利诺伊大学厄巴纳-香槟分校, 山东第一医科大学第一附属医院, 新加坡国立大学, 山东大学齐鲁医院, 约翰霍普金斯医学
Published: 2025-01-07 06:12:00
License: 暂无描述

arXiv2025-01-07 更新2025-01-09 收录

下载链接：

https://github.com/MrGiovanni/ScaleMAI

下载链接

链接失效反馈

官方服务：

资源简介：

AI Trusted Dataset是由ScaleMAI项目创建的大规模高质量医学影像数据集，专注于胰腺肿瘤的检测、分割和分类。该数据集包含25,362个CT扫描图像，涵盖了良性/恶性肿瘤的逐体素注释以及24个解剖结构的详细标注。数据来源于112家医院，包含丰富的影像元数据，如患者性别、年龄、对比度阶段等。数据集的创建过程结合了人工智能和大语言模型，显著减少了专家标注的时间和成本。该数据集的应用领域包括胰腺肿瘤的检测、分期和放疗规划，旨在提高医学影像AI模型的鲁棒性和准确性，解决传统数据集标注不一致、噪声多等问题。

The AI Trusted Dataset is a large-scale, high-quality medical imaging dataset developed by the ScaleMAI project, specializing in the detection, segmentation, and classification of pancreatic tumors. It contains 25,362 CT scan images, featuring voxel-wise annotations for benign and malignant tumors alongside detailed labels for 24 anatomical structures. The dataset is sourced from 112 hospitals and encompasses comprehensive imaging metadata including patient gender, age, contrast phase, and other relevant attributes. Its development process combines artificial intelligence and large language models, substantially reducing the time and cost required for expert annotation. The dataset has applications in pancreatic tumor detection, staging, and radiotherapy planning, aiming to improve the robustness and accuracy of medical imaging AI models and address issues such as inconsistent annotations and high noise in traditional datasets.

提供机构：

约翰霍普金斯大学, 博洛尼亚大学, 意大利理工学院, NVIDIA, DKFZ, 加州大学旧金山分校, 中国科学院大学, 广东省人民医院, 伊利诺伊大学厄巴纳-香槟分校, 山东第一医科大学第一附属医院, 新加坡国立大学, 山东大学齐鲁医院, 约翰霍普金斯医学

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

AI Trusted Dataset的构建采用了ScaleMAI框架，该框架通过整合大规模语言模型、视觉语言模型和人类专家反馈，实现了数据标注与AI模型训练的自我强化循环。具体步骤包括：首先，利用大规模语言模型从放射学报告中提取关键信息，如病理发现、对比增强和患者人口统计数据，显著减少了数据检索时间。其次，通过‘训练集测试’策略和‘标签专家’系统，自动检测并修正标注错误，提升了数据质量。最后，通过渐进式的人机交互迭代，生成了包含25,362个CT扫描的胰腺肿瘤检测数据集，每个扫描均包含良性/恶性肿瘤的体素级标注及24个解剖结构的标注。

使用方法

AI Trusted Dataset的使用方法主要包括以下几个方面：首先，数据集可用于训练和评估AI模型，特别是在胰腺肿瘤检测、分割和分类任务中。其次，通过结合大规模语言模型和视觉语言模型，数据集能够支持复杂的临床需求，如肿瘤分期和放疗规划。此外，数据集还可用于研究AI模型在不同人口统计学和技术条件下的泛化能力。通过公开数据集，研究人员可以进一步探索医学影像领域的AI应用，推动数据驱动的临床解决方案的发展。

背景与挑战

背景概述

AI Trusted Dataset是由约翰霍普金斯大学等机构的研究团队于2025年提出的一个大规模、高质量的医学影像数据集，专注于胰腺肿瘤的检测、分割和分类。该数据集包含25,362个CT扫描图像，涵盖了良性、恶性肿瘤的体素级标注以及24个解剖结构的标注。数据来源于全球112家医院，具有广泛的临床多样性。该数据集的创建旨在解决医学AI研究中数据质量不足、标注耗时等问题，通过ScaleMAI框架实现了数据标注与AI模型训练的协同优化，显著缩短了数据集构建时间。AI Trusted Dataset的推出为医学影像AI模型的开发提供了高质量的数据基础，推动了胰腺肿瘤检测、分期和放疗规划等临床应用的发展。

当前挑战

AI Trusted Dataset在构建和应用过程中面临多重挑战。首先，数据标注的复杂性是一个主要问题，胰腺肿瘤的体素级标注需要高度专业的医学知识，且标注过程耗时耗力。其次，数据来源的多样性带来了数据标准化和质量控制的挑战，不同医院的CT扫描设备和成像协议差异较大，可能导致数据不一致性。此外，数据集的规模庞大，如何在保证标注质量的同时高效处理海量数据也是一个技术难题。最后，AI模型在跨医院、跨设备的外部验证中表现出的泛化能力不足，表明数据集仍需进一步优化以应对真实临床场景中的多样性挑战。

常用场景

经典使用场景

AI Trusted Dataset 在医学影像领域，尤其是胰腺肿瘤检测、分割和分类中，展现了其经典应用场景。该数据集通过大规模、高质量的CT扫描数据，结合精确的体素级标注，支持了从肿瘤检测到放疗规划的全流程应用。特别是在胰腺肿瘤的早期检测中，AI Trusted Dataset 提供了丰富的临床数据，帮助研究人员和临床医生更准确地识别和定位肿瘤，显著提升了诊断的敏感性和特异性。

解决学术问题

AI Trusted Dataset 解决了医学影像研究中常见的几个关键问题。首先，它通过自动化数据标注和清理流程，显著减少了人工标注的时间和成本，同时提高了数据的质量和一致性。其次，该数据集通过多中心、多来源的数据收集，有效缓解了数据偏差和代表性不足的问题，增强了AI模型在真实临床场景中的鲁棒性。最后，AI Trusted Dataset 提供了丰富的肿瘤和周围结构的标注，支持了从肿瘤检测到分类的多种任务，推动了医学影像AI模型的性能提升。

实际应用

在实际应用中，AI Trusted Dataset 被广泛用于胰腺肿瘤的诊断、分期和放疗规划。通过该数据集训练的AI模型能够在CT扫描中精确检测和分割肿瘤，帮助医生制定更精准的治疗方案。特别是在放疗规划中，AI模型能够自动标注肿瘤和周围关键器官，减少了人工标注的工作量，提升了放疗的精确性和安全性。此外，该数据集还被用于开发多器官分割模型，支持了腹部影像的全面分析。

数据集最近研究