A dataset of primary nasopharyngeal carcinoma MRI with multi-modalities segmentation|鼻咽癌数据集|医学影像分析数据集

arXiv2024-04-04 更新2024-06-21 收录

鼻咽癌

医学影像分析

下载链接：

https://zenodo.org/records/10900202

下载链接

链接失效反馈

资源简介：

本数据集由佛山市第一人民医院创建，包含277名原发性鼻咽癌患者的MRI图像，涵盖T1加权、T2加权和增强T1加权序列，共计831次扫描。数据集不仅包括临床数据，还有经验丰富的放射科医生手动标注的分割图像，为未接受治疗的原发性鼻咽癌提供高质量数据资源。创建过程经过严格的质量控制，确保数据的准确性和可靠性。该数据集主要用于鼻咽癌的早期诊断、肿瘤分割和疾病分期，支持机器学习算法的发展，特别是在医疗图像分析领域，有助于提高疾病诊断和治疗策略的精确性。

提供机构：

佛山市第一人民医院

创建时间：

2024-04-04

AI搜集汇总

数据集介绍

构建方式

该数据集由277名经临床和病理诊断为原发性鼻咽癌的患者的多模态磁共振成像（MRI）数据组成。这些数据包括T1加权、T2加权和对比增强T1加权序列，共计831次扫描。所有图像均由两位经验丰富的放射科医生手动标注，并通过ITK-SNAP软件进行像素级肿瘤区域的分割。此外，数据集还包括患者的临床数据，如EBV状态、活检结果和五年无进展生存期。为确保数据质量，排除了曾接受放疗或化疗的患者以及图像质量不达标的病例。

特点

该数据集的显著特点在于其多模态MRI数据的全面性和高质量的手动标注。通过结合T1加权、T2加权和对比增强T1加权序列，提供了丰富的肿瘤形态学信息。此外，数据集还包括详细的临床参数，为模型训练提供了多维度的特征。手动标注的肿瘤区域为深度学习模型提供了高度准确的基准，有助于提高分割和诊断的准确性。

使用方法

该数据集可用于开发和验证鼻咽癌自动分割算法，特别是基于卷积神经网络（CNN）和U-Net等深度学习模型的应用。研究人员可以通过访问Zenodo平台下载数据集，并使用ITK-SNAP软件进行可视化。对于Python用户，PyDICOM库可用于读取MRI数据，而vtkmodules和Nibabel则适用于处理感兴趣区域（ROI）数据。通过这些工具，研究人员可以高效地利用该数据集进行模型训练和性能评估，从而推动鼻咽癌诊断和治疗策略的进步。

背景与挑战

背景概述

鼻咽癌（Nasopharyngeal Carcinoma, NPC）是全球第六大高发癌症，其发病率在东南亚地区尤为显著。为了应对这一挑战，研究人员在佛山市第一人民医院、安徽医科大学第二附属医院和复旦大学中山医院等机构合作，于2024年创建了首个综合性的鼻咽癌MRI数据集。该数据集包含277名初诊鼻咽癌患者的MR轴向图像，涵盖T1加权、T2加权和对比增强T1加权序列，共计831次扫描。此数据集不仅提供了高质量的图像数据，还包括由经验丰富的放射科医生手动标注的肿瘤分割数据，以及相关的临床数据。这一数据集的发布填补了鼻咽癌诊断和治疗规划领域的数据空白，为机器学习算法的发展提供了宝贵的资源，推动了鼻咽癌早期诊断和治疗策略的进步。

当前挑战

尽管该数据集在鼻咽癌研究中具有重要意义，但其构建和应用过程中仍面临多项挑战。首先，高质量的手动标注数据生成过程耗时且依赖于专家经验，这限制了数据集的扩展和更新速度。其次，多模态MRI数据的整合和分析需要复杂的算法和技术支持，以确保准确性和可靠性。此外，数据集的隐私保护和匿名化处理也是一大挑战，需确保患者信息的安全性和合规性。最后，如何有效地利用这一数据集进行模型训练和验证，以实现自动化肿瘤分割和疾病预测，仍需进一步研究和优化。

常用场景

经典使用场景

该数据集主要用于鼻咽癌（NPC）的多模态磁共振成像（MRI）分割研究。通过整合T1加权、T2加权和对比增强T1加权序列的MRI图像，研究人员可以利用这些高分辨率图像进行肿瘤的精确分割。这种多模态数据集为深度学习算法提供了丰富的特征，有助于提高鼻咽癌诊断和治疗的准确性。

解决学术问题

该数据集解决了鼻咽癌诊断和治疗中的关键学术问题，包括肿瘤的早期检测、精确分割和疾病分期。通过提供高质量的手动标注数据，该数据集为机器学习算法的发展提供了坚实的基础，有助于提高鼻咽癌的诊断准确性和治疗效果。此外，该数据集还促进了多模态影像数据的整合研究，推动了医学影像分析技术的发展。

衍生相关工作

基于该数据集，已经衍生出多项经典工作，包括使用卷积神经网络（CNN）和U-Net架构进行鼻咽癌的自动分割研究。例如，Li等人提出的NPCNet模型，通过联合分割鼻咽癌肿瘤和转移淋巴结，显著提高了分割的准确性。此外，Chen等人开发的MMFNet模型，通过多模态MRI融合网络，进一步提升了鼻咽癌的分割效果。这些研究不仅推动了鼻咽癌的诊断技术，也为其他类型的肿瘤分割研究提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

新能源光伏功率预测数据

采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息，通过气象预测模型与功率预测算法，实现对光伏电站未来一段时间内气象数据及功率数据的预测。

安徽省数据知识产权登记平台收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录