VatsalPatel18/HNSCC-MultiOmics-10-Cancer-Hallmark-Gene-Network
收藏数据集概述
数据集名称
HNSCC MultiOmics Cancer Gene Hallmark Network Patient Dataset
数据集内容
该数据集包含与头颈鳞状细胞癌(HNSCC)患者数据相关的网络和邻接矩阵文件,旨在用于癌症基因组学和网络分析领域的研究。
数据集文件
- hnscc.patient.chg.network.pth: PyTorch字典格式,包含患者ID作为键,值为PyTorch Geometric格式的数据。每个条目代表特定患者的网络数据。
- hnsc.edges.npy: NumPy格式,包含癌症标志基因集的邻接矩阵,表示不同基因之间的连接性。
- additional_data_file.extension: 具体文件名和扩展名未提供,内容描述待补充。
数据格式
.pth文件格式专为PyTorch设计,需使用PyTorch Geometric加载。.npy文件是NumPy的二进制数组存储格式,适合使用NumPy的load函数加载。
网络构建
使用包含2,784个基因的癌症标志基因集构建网络节点,边根据基因对之间共享的通路数量加权。网络包含3,672,566个加权边,针对TCGA-HNSCC队列中的430名患者构建。
引用文献
Zhang D, Huo D, Xie H, Wu L, Zhang J, Liu L, Jin Q, Chen X. CHG: A Systematically Integrated Database of Cancer Hallmark Genes. Front Genet. 2020 Feb 5;11:29. doi: 10.3389/fgene.2020.00029. PMID: 32117445; PMCID: PMC7013921.
使用数据集
需安装Python、PyTorch和PyTorch Geometric。使用以下命令安装所需包: bash pip install torch torch-geometric numpy
数据集加载示例
python import torch import numpy as np
加载PyTorch字典
graph_data_dict = torch.load(path/to/hnscc.patient.chg.network.pth)
加载邻接矩阵
adjacency_matrix = np.load(path/to/hnsc.edges.npy)
访问特定患者数据示例
patient_id = example_patient_id # 替换为实际患者ID patient_data = graph_data_dict[patient_id]
数据预处理
确保基因表达数据标准化并稳健缩放到0到1的范围内。拷贝数变异数据应从离散变量(范围-2到2)线性转换为连续表示。突变类型应以二进制格式编码,1表示突变存在,0表示不存在。甲基化数据应保持为六个基因区域的连续变量。
网络构建
使用包含2,784个基因的癌症标志基因集构建网络,根据基因对之间共享的通路数量定义加权边。
模型训练
加载和预处理数据后,可使用提供的配置和数据加载器训练Graph Attention Autoencoder。模型训练目标为验证集余弦相似度0.835和测试集余弦相似度0.8。
分析与可视化
使用训练好的模型进行各种分析和可视化,如提取潜在特征、将患者聚类成不同组别并进行生存分析。详细说明和代码示例在相关仓库的README文件中提供。
引用
如在研究中使用此数据集,请引用以下论文: Zhang D, Huo D, Xie H, Wu L, Zhang J, Liu L, Jin Q, Chen X. CHG: A Systematically Integrated Database of Cancer Hallmark Genes. Front Genet. 2020 Feb 5;11:29. doi: 10.3389/fgene.2020.00029. PMID: 32117445; PMCID: PMC7013921.




