Breast-Cancer-datasets-to-mine|乳腺癌研究数据集|数据挖掘数据集
收藏github2024-05-12 更新2024-05-31 收录
下载链接:
https://github.com/dfimerel/Breast-Cancer-datasets-to-mine
下载链接
链接失效反馈资源简介:
乳腺癌数据集集合,用于挖掘和探索,包含多种分子数据类型,如基因表达、DNA突变、CNA、DNA甲基化、蛋白质表达、组织病理学图像等。
A collection of breast cancer datasets designed for mining and exploration, encompassing a variety of molecular data types such as gene expression, DNA mutations, copy number alterations (CNA), DNA methylation, protein expression, and histopathological images.
创建时间:
2022-08-28
原始信息汇总
数据集概述
cBioPortal & ICGC
- 内容: 包含基因表达、DNA突变、拷贝数变异(CNA)、DNA甲基化、蛋白质表达、组织病理学图像。
- 来源: cBioPortal, ICGC。
PCAWG
- 内容: 包含全基因组测序数据。
- 来源: PCAWG。
GENIE
- 内容: 包含针对常见癌症相关基因的外显子突变。
- 来源: GENIE。
Cell lines
- 内容: 包含癌细胞系的基因表达、DNA突变、CNA及其他数据。
- 来源: Cancer Cell Line Encyclopedia。
Early-stage BC
- 内容: 包含早期阶段乳腺癌的不同分子数据。
- 来源: RNA测序为基础的单样本预测分子亚型及复发风险用于早期乳腺癌临床评估。
Metastatic BC
- 内容: 包含转移性乳腺癌的不同分子数据。
- 来源: 多个研究,包括基因组分析和临床模型等。
Single-cell transcriptomics (and genomics) datasets
- 内容: 包含单细胞转录组(和基因组)数据。
- 来源: 多个研究,涉及细胞异质性、免疫环境变化等。
Spatial transcriptomics datasets
- 内容: 包含空间转录组数据。
- 来源: 多个研究,涉及肿瘤相关细胞类型交互等。
Multi-omics datasets
- 内容: 包含多组学数据,未归类于其他类别。
- 来源: 多个研究,涉及免疫逃逸、治疗反应等。
Imaging techniques
- 内容: 包含影像技术数据。
- 来源: 多个研究,涉及免疫治疗反应预测等。
Normal Adult Human Breast
- 内容: 包含正常成人乳腺的单细胞图谱。
- 来源: 研究涉及细胞稳态变化。
AI搜集汇总
数据集介绍

构建方式
Breast-Cancer-datasets-to-mine数据集的构建基于多个权威来源,包括cBioPortal、ICGC、PCAWG、GENIE等,涵盖了基因表达、DNA突变、拷贝数变异、DNA甲基化、蛋白质表达以及组织病理学图像等多种数据类型。这些数据通过整合来自不同研究项目和临床试验的信息,形成了一个全面且多层次的乳腺癌数据资源库。
特点
该数据集的显著特点在于其多维度和多层次的数据结构,不仅包括基因组和转录组数据,还涵盖了单细胞和空间转录组学数据,以及影像学技术的结果。这种多模态数据的整合为乳腺癌的分子机制研究提供了丰富的信息,有助于深入理解肿瘤的异质性和复杂性。
使用方法
Breast-Cancer-datasets-to-mine数据集适用于多种研究目的,包括但不限于乳腺癌的分子分型、预后预测、治疗反应评估以及新药开发。研究人员可以通过访问GitHub页面下载所需数据,并利用Python、R等编程语言进行数据分析和建模。此外,数据集的详细文档和示例代码也为初学者提供了友好的使用指南。
背景与挑战
背景概述
乳腺癌作为全球女性最常见的恶性肿瘤之一,其研究一直是医学和生物学领域的重要课题。Breast-Cancer-datasets-to-mine数据集的创建旨在整合多种乳腺癌样本数据,涵盖基因表达、DNA突变、拷贝数变异、DNA甲基化、蛋白质表达及组织病理学图像等多个维度。该数据集由多个知名研究机构和平台如cBioPortal、ICGC、PCAWG、GENIE等共同贡献,主要研究人员和机构包括国际癌症基因组联盟(ICGC)和美国癌症研究协会(AACR)等。其核心研究问题在于通过多维数据分析,揭示乳腺癌的分子机制和潜在治疗靶点,对乳腺癌的精准医疗和个性化治疗具有重要推动作用。
当前挑战
尽管Breast-Cancer-datasets-to-mine数据集在乳腺癌研究中具有重要价值,但其构建和应用过程中仍面临诸多挑战。首先,数据来源多样且异质性强,整合不同平台和技术的数据需要克服技术标准和数据格式的不一致性。其次,乳腺癌的分子异质性极高,如何在庞大的数据集中识别和区分不同亚型的乳腺癌,是当前研究的主要难点。此外,数据隐私和伦理问题也是不可忽视的挑战,如何在确保数据安全的前提下,实现数据的共享和利用,是该数据集未来发展的重要方向。
常用场景
经典使用场景
在乳腺癌研究领域,Breast-Cancer-datasets-to-mine数据集被广泛用于探索基因表达、DNA突变、拷贝数变异(CNA)、DNA甲基化、蛋白质表达以及组织病理学图像等多维度的分子数据。这些数据为研究人员提供了深入分析乳腺癌分子机制的宝贵资源,特别是在早期和转移性乳腺癌的分子特征研究中。
实际应用
在实际应用中,Breast-Cancer-datasets-to-mine数据集支持了多种临床决策工具的开发,如基于基因表达的预后模型和治疗反应预测模型。此外,该数据集还被用于验证新的生物标志物,以改进乳腺癌的早期诊断和治疗方案的选择,从而提高患者的生存率和生活质量。
衍生相关工作
基于Breast-Cancer-datasets-to-mine数据集,研究者们开展了多项经典工作,包括单细胞转录组学和空间转录组学的深入分析,揭示了乳腺癌细胞的异质性和免疫微环境的复杂性。这些研究不仅推动了乳腺癌的基础研究,还为开发新的治疗策略和药物靶点提供了重要线索。
以上内容由AI搜集并总结生成



