TumorTwin数据集

Name: TumorTwin数据集
Creator: 德克萨斯大学奥斯汀分校Oden计算工程与科学研究所
Published: 2025-05-02 01:20:20
License: 暂无描述

arXiv2025-05-02 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00670v1

下载链接

链接失效反馈

官方服务：

资源简介：

TumorTwin数据集是德克萨斯大学奥斯汀分校Oden计算工程与科学研究所开发的，用于支持TumorTwin框架的数据集。该数据集包括两个合成数据集，分别用于高级胶质瘤和三阴性乳腺癌的研究。每个数据集都包含合成的医学影像扫描和相关治疗方案。这些数据集旨在帮助研究人员快速探索TumorTwin软件的功能，同时为希望将自身患者数据集成到框架中的用户提供了结构化的模板。数据集的创建过程涉及使用真实患者数据作为参考来生成合成数据，以解决真实临床数据共享的限制。

The TumorTwin dataset is developed by the Oden Institute for Computational Engineering and Sciences at The University of Texas at Austin, and is designed to support the TumorTwin framework. This dataset comprises two synthetic datasets intended for research on high-grade glioma and triple-negative breast cancer respectively. Each dataset contains synthetic medical imaging scans and associated treatment plans. These datasets aim to help researchers quickly explore the functionalities of the TumorTwin software, while also providing structured templates for users who wish to integrate their own patient data into the framework. The creation of the datasets involves generating synthetic data using real patient data as a reference, so as to address the limitations of real clinical data sharing.

提供机构：

德克萨斯大学奥斯汀分校Oden计算工程与科学研究所

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

TumorTwin数据集是通过合成医学影像数据构建的，旨在为肿瘤数字孪生研究提供标准化的测试基准。该数据集包含高级别胶质瘤（HGG）和三阴性乳腺癌（TNBC）两种癌症类型的合成病例，每种病例均基于公开的真实患者影像数据生成。通过反应-扩散偏微分方程模型模拟肿瘤生长和治疗响应，生成纵向的合成MRI影像数据，包括T1加权、T2加权和功能影像（如ADC图）。数据集采用NIFTI格式存储影像数据，并通过JSON配置文件记录治疗时间表和影像采集时间点，确保数据的完整性和可追溯性。

使用方法

TumorTwin数据集的使用方法包括数据导入、模型构建和参数优化三个主要步骤。研究人员可以通过Python包加载NIFTI格式的影像数据和JSON配置文件，快速构建患者特定的数字孪生模型。数据集支持梯度计算和参数校准，用户可以利用内置的优化器（如Levenberg-Marquardt算法）对模型参数进行拟合。此外，数据集提供了可视化工具，用于验证输入数据的质量和模型预测的准确性。通过集成PyTorch框架，用户可以在CPU或GPU上高效运行肿瘤生长模拟，并探索不同治疗方案的预测效果。

背景与挑战

背景概述

TumorTwin数据集是由德克萨斯大学奥斯汀分校Oden计算工程与科学研究所的研究团队于2025年提出的一个创新性框架，旨在为肿瘤学领域提供患者特异性数字孪生（Digital Twin）解决方案。该数据集的核心研究问题聚焦于如何利用计算肿瘤学的前沿理论和方法，通过双向数据流实现实体肿瘤与数字肿瘤之间的动态模型重新校准、不确定性量化和临床决策支持。TumorTwin作为一个模块化的Python软件框架，支持不同数据源、肿瘤生长模型和治疗模块的集成，为肿瘤生长预测和治疗响应提供了高效、可扩展的计算基础。其在《arXiv:2505.00670v1》中首次公开，迅速成为个性化医疗和计算肿瘤学交叉领域的重要研究工具。

当前挑战

TumorTwin数据集面临的挑战主要体现在两个方面：领域问题的复杂性和构建过程的技术难题。在领域问题方面，肿瘤生长模型需要整合多尺度、多学科的生物学和物理学原理，而如何选择合适的建模方法、平衡模型精度与计算成本仍存在诸多开放性问题。医学影像数据的校准过程涉及复杂的图像配准和分割算法，这些预处理步骤对模型质量的影响尚未充分研究。在构建过程中，数据集需要处理大规模医学影像数据，面临数据格式不统一、坐标系统差异等标准化挑战。同时，患者隐私保护要求使得真实临床数据的获取和共享变得异常困难，研究者不得不依赖合成数据进行框架验证，这在一定程度上限制了模型的泛化能力。此外，高维模型参数的引入虽然能更好描述肿瘤异质性，但也带来了计算复杂度显著增加的挑战。

常用场景

经典使用场景

TumorTwin数据集在计算肿瘤学领域具有广泛的应用价值，特别是在构建患者特异性数字孪生模型方面。该数据集通过整合定量磁共振成像（MRI）数据，为研究人员提供了一个模块化的软件框架，用于初始化和更新患者特异性肿瘤数字孪生。其经典使用场景包括高等级胶质瘤（HGG）和三阴性乳腺癌（TNBC）的生长和放疗响应预测。通过该数据集，研究人员可以高效地探索不同模型、算法和疾病部位的组合，从而优化治疗方案。

解决学术问题

TumorTwin数据集解决了计算肿瘤学中的多个关键学术问题。首先，它通过模块化架构支持不同数据源、肿瘤生长模型和治疗模块的集成，解决了模型可移植性和适应性问题。其次，该数据集提供了高效的梯度计算和参数校准功能，帮助研究人员优化模型参数以匹配患者特异性数据。此外，数据集还支持不确定性量化和稳健决策，为肿瘤生长预测和治疗优化提供了科学依据。这些功能显著提升了数字孪生技术在个性化医疗中的应用潜力。

实际应用

在实际应用中，TumorTwin数据集为临床医生和研究人员提供了强大的工具，用于预测肿瘤生长和优化治疗方案。例如，在放疗和化疗的个性化设计中，该数据集可以通过校准模型参数，模拟不同治疗策略的效果，从而为患者选择最佳治疗方案。此外，数据集还支持实时数据更新和模型重新校准，确保预测结果的准确性和时效性。这些功能使其成为临床决策支持系统的重要组成部分。

数据集最近研究