SAMVAE数据集
收藏arXiv2025-07-10 更新2025-08-15 收录
下载链接:
https://github.com/AlbaGarridoLopezz/SAMVAE
下载链接
链接失效反馈官方服务:
资源简介:
SAMVAE数据集是一个用于癌症生存分析的多模态深度学习框架,它整合了六种数据模态:临床变量、四种分子特征和病理组织学图像。该数据集旨在为个性化医疗提供支持,通过整合多模态数据,提高癌症患者生存预测的准确性。数据集包含乳腺癌和低级别胶质瘤两种癌症类型的数据,通过使用SAMVAE模型进行评估,展示了多模态数据在生存分析中的应用潜力。
The SAMVAE Dataset is a multimodal deep learning framework for cancer survival analysis, integrating six data modalities: clinical variables, four molecular features, and histopathological images. This dataset is designed to support personalized healthcare, improving the accuracy of survival prediction for cancer patients by integrating multimodal data. It contains data from two cancer types: breast cancer and low-grade glioma. Evaluated using the SAMVAE model, it demonstrates the application potential of multimodal data in cancer survival analysis.
提供机构:
信息处理与电信中心,西班牙马德里理工大学电信工程学院
创建时间:
2025-07-10
搜集汇总
数据集介绍

构建方式
SAMVAE数据集通过整合六种数据模态构建而成,包括临床变量、四种分子谱(DNA甲基化、拷贝数变异、微小RNA和RNA测序)以及组织病理学图像。该数据集采用模态特定的编码器将输入数据投影到共享的潜在空间中,从而在保留模态特定信息的同时实现稳健的生存预测。数据预处理包括针对高维分子数据的降维技术(如主成分分析和最小冗余最大相关性准则)以及组织病理学图像的分块和注意力机制筛选。
特点
SAMVAE数据集的核心特点在于其多模态整合能力与参数化生存分析框架。数据集首次在连续时间域中实现了竞争风险建模,支持从异质数据源生成个性化生存曲线。其参数化形式允许从输出分布中导出具有临床意义的统计量,并通过交互式多媒体提供患者特异性见解。此外,该数据集采用公开可用的TCGA数据,确保透明度和可重复性。
使用方法
该数据集的使用涉及三个关键步骤:首先通过模态特定编码器处理原始数据,生成共享的潜在表示;随后利用该表示进行生存时间预测,根据任务类型(单风险或竞争风险)选择相应建模策略;最终输出包含个性化生存曲线和风险轨迹的可解释结果。研究人员可通过调整潜在空间维度和隐藏层大小等超参数优化模型性能,并利用C-index和集成Brier分数等指标评估预测准确性。
背景与挑战
背景概述
SAMVAE数据集由西班牙马德里理工大学信息处理与电信中心的研究团队于2025年创建,旨在解决肿瘤学中多模态医疗数据的生存分析问题。该数据集整合了临床变量、四种分子谱(DNA甲基化、拷贝数变异、microRNA和RNA测序)以及组织病理学图像六种数据模态,通过变分自编码器架构实现多模态数据的融合与生存预测。作为首个支持连续时间竞争风险建模的多模态深度学习框架,SAMVAE为乳腺癌和低级别胶质瘤的预后评估提供了参数化概率解决方案,推动了精准医疗领域的发展。
当前挑战
该数据集面临的核心挑战包括:1) 多模态数据异质性整合难题,分子数据的高维度(数千个特征)与病理图像的超高分辨率(单张切片超1亿像素)导致特征尺度与结构差异;2) 竞争风险建模的复杂性,需同时处理相互排斥的多个临床终点事件;3) 临床可解释性要求,需在保持预测性能的同时提供参数化生存曲线。构建过程中还需克服模态特异性编码器设计、共享潜在空间优化以及医疗数据稀疏性带来的过拟合风险等技术难点。
常用场景
经典使用场景
SAMVAE数据集在肿瘤学研究中被广泛应用于多模态医疗数据的生存分析。通过整合临床变量、分子特征和组织病理学图像等多种数据模态,该数据集能够全面捕捉肿瘤生物学的复杂性。研究人员利用SAMVAE数据集构建深度学习模型,预测患者的生存时间,并在竞争风险场景下评估不同事件类型的累积发生率。
衍生相关工作
SAMVAE数据集衍生了多个经典研究工作,包括多模态生存分析模型的比较和优化。例如,BioFusionNet和MultiSurv等模型在TCGA数据集上的性能评估,均以SAMVAE为基准。此外,该数据集还推动了竞争风险模型的发展,如CR-SAVAE框架的提出,进一步扩展了多模态数据在生存分析中的应用范围。
数据集最近研究
最新研究方向
近年来,SAMVAE数据集在肿瘤学多模态生存分析领域展现出显著的研究价值。该数据集通过整合临床变量、分子特征(如DNA甲基化、拷贝数变异、miRNA、RNA测序)及组织病理学图像六种模态数据,构建了基于变分自编码器的多模态深度学习框架,首次实现了连续时间竞争风险场景下的参数化建模。其核心创新在于利用模态特异性编码器将异构数据映射至共享潜在空间,既保留了各模态的独特性,又支持生成个性化生存曲线。当前研究热点聚焦于多模态融合策略优化、竞争风险模型的临床可解释性提升,以及基于生成式架构的合成患者数据生成。这一框架为精准医学提供了数据驱动的决策支持,尤其在乳腺癌和低级别胶质瘤的预后预测中表现出与现有最优模型相当的判别性能,同时通过参数化输出分布增强了临床实用性。
相关研究论文
- 1Deep Survival Analysis in Multimodal Medical Data: A Parametric and Probabilistic Approach with Competing Risks信息处理与电信中心,西班牙马德里理工大学电信工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



