jarrydmartinx/gbsg
收藏Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jarrydmartinx/gbsg
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Rotterdam肿瘤库和德国乳腺癌研究小组数据的结合。这是DeepSurv论文(Katzman等,2018)中使用的处理过的数据集,详细信息可以在https://doi.org/10.1186/s12874-018-0482-1找到。原始数据可以在https://github.com/jaredleekatzman/DeepSurv/tree/master/experiments/data查看。
本数据集由鹿特丹肿瘤库(Rotterdam)与德国乳腺癌研究小组的数据整合而成,亦是Katzman等人于2018年发表的DeepSurv论文中所使用的预处理数据集。其详细信息可通过https://doi.org/10.1186/s12874-018-0482-1获取,原始数据集的访问地址为https://github.com/jaredleekatzman/DeepSurv/tree/master/experiments/data。
提供机构:
jarrydmartinx
原始信息汇总
数据集概述
数据集名称
"gbsg"
数据集特征
- horTh: float64
- tsize: float64
- menostat: float64
- age: float64
- pnodes: float64
- progrec: float64
- estrec: float64
- event_times: float64
- event_indicators: float64
数据集划分
- 训练集:
- 样本数量: 1546
- 数据大小: 111312字节
- 测试集:
- 样本数量: 686
- 数据大小: 49392字节
数据集大小
- 下载大小: 28144字节
- 总数据大小: 160704字节
搜集汇总
数据集介绍

构建方式
在肿瘤学研究领域,GBSG数据集整合了德国乳腺癌研究组与鹿特丹肿瘤库的临床数据,为生存分析提供了重要资源。该数据集通过严格的医学数据收集流程,记录了乳腺癌患者的临床特征与生存时间,并经过预处理以适应机器学习模型的需求。数据集的构建过程遵循了临床研究的标准规范,确保了数据的可靠性与一致性,为后续的生存预测模型开发奠定了坚实基础。
特点
GBSG数据集涵盖了乳腺癌患者的多种临床变量,包括激素治疗状态、肿瘤大小、年龄、淋巴结数量等关键特征,并提供了事件时间与事件指示器,以支持生存分析任务。数据集的规模适中,包含训练集与测试集,便于模型训练与评估。其结构化设计使得数据易于处理,同时保持了临床数据的原始真实性,为研究者提供了探索生存预测模型的丰富素材。
使用方法
使用GBSG数据集时,研究者可将其应用于生存分析模型的开发与验证,例如通过DeepSurv等深度学习框架进行训练。数据已划分为训练集和测试集,用户可直接加载进行模型拟合与性能评估。建议参考原始研究文献与代码库,以确保正确理解数据字段含义,并遵循临床数据分析的最佳实践,以提升模型的解释性与应用价值。
背景与挑战
背景概述
在生物医学统计与机器学习交叉领域,乳腺癌预后模型的构建一直是临床研究的关键议题。GBSG数据集由德国乳腺癌研究组与鹿特丹肿瘤银行联合创建,其核心研究问题聚焦于利用患者临床病理特征预测乳腺癌复发风险与生存时间。该数据集在2018年通过Katzman等人的DeepSurv研究被系统化处理,成为生存分析模型验证的重要基准,推动了深度学习在医学预后预测中的应用,显著提升了模型对复杂生存数据的解析能力。
当前挑战
GBSG数据集旨在应对生存分析中高维临床数据与时间事件关联建模的挑战,具体包括处理删失数据、整合异质性临床变量以及提高模型在动态风险预测中的鲁棒性。在构建过程中,挑战主要源于多中心数据的标准化整合、临床特征的一致化编码,以及确保时间事件指标的准确标注,这些因素对数据集的可靠性与泛化性提出了严格要求。
常用场景
经典使用场景
在乳腺癌预后分析领域,gbsg数据集作为经典临床数据资源,常被用于构建生存分析模型。该数据集整合了德国乳腺癌研究组与鹿特丹肿瘤库的临床信息,通过事件时间与事件指示变量,支持研究者评估患者生存风险。其典型应用场景包括利用Cox比例风险模型或深度学习框架,如DeepSurv,预测乳腺癌患者的复发或死亡概率,为临床决策提供量化依据。
解决学术问题
gbsg数据集有效解决了乳腺癌研究中生存数据建模的若干挑战。它通过结构化临床特征,如肿瘤大小、淋巴结状态与激素受体水平,帮助学者探究多变量对生存结局的影响机制。该数据集支持验证比例风险假设,并促进半参数与非参数生存模型的开发,从而深化对乳腺癌异质性及治疗响应差异的理解,推动精准医疗在肿瘤学中的理论进展。
衍生相关工作
gbsg数据集催生了多项经典研究工作,其中最具代表性的是Katzman等人提出的DeepSurv框架。该工作利用深度学习扩展传统生存分析,实现了非线性风险函数的建模。后续研究在此基础上进一步探索了注意力机制、多任务学习等变体,推动了生存分析领域的算法创新。这些衍生成果不仅验证了数据集的可靠性,也为肿瘤预后预测开辟了新的方法论路径。
以上内容由遇见数据集搜集并总结生成



