PancreaVerse|医学影像数据集|胰腺肿瘤数据集

github2025-01-09 更新2025-01-10 收录

医学影像

胰腺肿瘤

下载链接：

https://github.com/MrGiovanni/ScaleMAI

下载链接

链接失效反馈

资源简介：

PancreaVerse包含25,362个CT扫描，精确标注了良性和恶性胰腺肿瘤、胰腺头、体和尾，以及24个周围结构（如胰腺、上肠系膜动脉、胰管、腹腔动脉、胆总管、静脉、主动脉、胆囊、左右肾、肝脏、下腔静脉、脾脏、胃、左右肾上腺、膀胱、结肠、十二指肠、左右股骨、左右肺和前列腺）。该数据集来自112家医院，包含患者性别、年龄、对比阶段、诊断、间距和扫描仪详细信息等成像元数据。

创建时间：

2025-01-01

原始信息汇总

ScaleMAI 数据集概述

数据集简介

ScaleMAI 是一个集成了人工智能的数据整理和标注工具，结合了多阶段的迭代过程与人工智能及人类专家的知识，逐步提升数据集的质量。

PancreaVerse 数据集

PancreaVerse 是一个用于胰腺癌研究的可信数据集，包含以下关键信息：

数据集统计

数据集名称	类别数量	CT扫描数量	数据来源中心数量
TCIA-CBCT	0	40	1
MSD-Pancreas	2	420	1
TCIA-panNET	0	38	1
PANORAMA	6	3,000	7
PancreaVerse	27	25,362	112

数据集内容

CT扫描数量: 25,362
标注内容: 包括良性和恶性胰腺肿瘤、胰腺头、体、尾以及24个周围结构的精确体素级标注。
数据来源: 来自112家医院的影像数据，包含患者性别、年龄、对比阶段、诊断、间距和扫描仪详细信息等元数据。

应用场景

医学影像任务: 检测、分割、分类
临床任务: 肿瘤分期、放射治疗计划

引用

bibtex @article{li2025scalemai, title={ScaleMAI: Accelerating the Development of Trusted Datasets and AI Models}, author={Wenxuan Li and Pedro R. A. S. Bassi and Tianyu Lin and Yu-Cheng Chou and Xinze Zhou and Yucheng Tang and Fabian Isensee and Kang Wang and Qi Chen and Xiaowei Xu and Xiaoxi Chen and Lizhou Wu and Qilong Wu and Yannick Kirchhoff and Maximilian Rokuss and Saikat Roy and Yuxuan Zhao and Dexin Yu and Kai Ding and Constantin Ulrich and Klaus Maier-Hein and Yang Yang and Alan L. Yuille and Zongwei Zhou}, journal={arXiv preprint arXiv:2501.03410}, year={2025}, url={https://github.com/MrGiovanni/ScaleMAI} }

致谢

本工作得到了Lustgarten胰腺癌研究基金会和McGovern基金会的支持。论文内容涉及正在申请的专利。

AI搜集汇总

数据集介绍

构建方式

PancreaVerse数据集的构建采用了ScaleMAI这一AI集成数据管理与标注代理工具，结合了多阶段迭代过程与AI及人类专家的协同工作，逐步提升数据集的质量。该数据集包含了来自112家医院的25,362个CT扫描图像，涵盖了胰腺肿瘤的精确体素级标注，以及24个周围结构的详细注释。数据集的构建过程中，还整合了患者的性别、年龄、对比剂使用阶段、诊断信息、扫描间距及设备详情等元数据，确保了数据的全面性与可靠性。

特点

PancreaVerse数据集以其规模庞大和标注精细著称，涵盖了27个类别的胰腺肿瘤及其周围结构，包括胰腺头、体、尾以及24个相关解剖结构。数据集的多样性体现在其来源广泛，涵盖了112家医院的临床数据，确保了数据在不同医疗环境下的普适性。此外，该数据集支持多种医学影像任务，如肿瘤检测、分割和分类，以及临床任务如肿瘤分期和放疗规划，为胰腺癌研究提供了丰富的数据支持。

使用方法

PancreaVerse数据集的使用方法主要围绕医学影像分析展开。研究人员可以通过该数据集进行胰腺肿瘤的检测、分割和分类任务，同时也可用于临床研究中的肿瘤分期和放疗规划。数据集提供了详细的元数据，便于用户根据具体需求进行数据筛选和分析。此外，数据集的高质量标注和多样性使其成为训练和验证AI模型的理想选择，尤其适用于胰腺癌相关的研究和开发。

背景与挑战

背景概述

PancreaVerse数据集是由约翰霍普金斯大学的研究团队于2025年创建的，旨在为胰腺癌研究提供高质量的医学影像数据。该数据集包含了来自112家医院的25,362例CT扫描，涵盖了胰腺及其周围24个结构的精确体素级标注。PancreaVerse不仅支持传统的医学影像任务，如检测、分割和分类，还为临床任务如肿瘤分期和放疗规划提供了重要支持。该数据集的创建标志着胰腺癌研究领域的一个重要里程碑，极大地推动了AI模型在医学影像分析中的应用。

当前挑战

PancreaVerse数据集在构建过程中面临了多方面的挑战。首先，胰腺及其周围结构的复杂解剖结构使得精确标注变得极为困难，尤其是在CT影像中区分良性和恶性肿瘤时。其次，数据集的多样性和规模要求从多个医院收集数据，这带来了数据标准化和一致性的问题。此外，确保数据隐私和伦理合规性也是构建过程中的一大挑战。尽管这些挑战存在，PancreaVerse通过结合AI技术和人工专家的多阶段迭代流程，成功提升了数据集的质量和可信度，为胰腺癌研究提供了坚实的基础。

常用场景

经典使用场景

PancreaVerse数据集在胰腺癌研究中扮演了关键角色，尤其是在肿瘤检测、分割和分类任务中。该数据集通过提供大量精确标注的CT扫描图像，使得研究人员能够训练出高精度的AI模型，这些模型在肿瘤检测和分类任务中表现优异，甚至超越了资深放射科医生的水平。

实际应用

在实际应用中，PancreaVerse数据集被广泛用于开发临床决策支持系统。这些系统能够辅助医生进行胰腺癌的诊断和治疗规划，提高诊断的准确性和治疗的个性化水平。此外，该数据集还被用于开发自动化肿瘤检测和分割工具，显著提升了放射科医生的工作效率。

衍生相关工作

基于PancreaVerse数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种深度学习模型，用于胰腺肿瘤的自动检测和分类。这些模型在多个国际医学影像竞赛中取得了优异成绩，进一步验证了PancreaVerse数据集的高质量和广泛适用性。此外，该数据集还催生了许多关于胰腺癌影像特征提取和肿瘤分期预测的研究，推动了胰腺癌影像学领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集，涵盖了2010至2022年间中国高考的所有科目题目，共计2811题。该数据集包含1781道客观题和1030道主观题，题型多样，包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件，数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准，特别是在解决中国高考相关问题上的表现。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据，涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息，基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条，但消极评论与中立评论远远大于积极评论。因此作特殊处理后，积极数据2601条，消极数据2367条，中立数据2725条，共7693条数据。