jarrydmartinx/metabric2|乳腺癌数据集|基因表达数据集
收藏数据集概述
数据集信息
特征描述
数据集包含以下特征及其数据类型:
- patient_id: 患者ID,数据类型为
int64
- age_at_diagnosis: 诊断时的年龄,数据类型为
float64
- type_of_breast_surgery: 乳腺癌手术类型,数据类型为
string
- cancer_type: 癌症类型,数据类型为
string
- cancer_type_detailed: 详细的癌症类型,数据类型为
string
- cellularity: 细胞密度,数据类型为
string
- chemotherapy: 是否接受化疗,数据类型为
int64
- pam50_+_claudin-low_subtype: PAM50和Claudin-low亚型,数据类型为
string
- cohort: 队列,数据类型为
float64
- er_status_measured_by_ihc: 通过IHC测量的ER状态,数据类型为
string
- er_status: ER状态,数据类型为
string
- neoplasm_histologic_grade: 肿瘤组织学分级,数据类型为
float64
- her2_status_measured_by_snp6: 通过SNP6测量的HER2状态,数据类型为
string
- her2_status: HER2状态,数据类型为
string
- tumor_other_histologic_subtype: 肿瘤其他组织学亚型,数据类型为
string
- hormone_therapy: 是否接受激素治疗,数据类型为
int64
- inferred_menopausal_state: 推断的绝经状态,数据类型为
string
- integrative_cluster: 综合集群,数据类型为
string
- primary_tumor_laterality: 原发性肿瘤侧向,数据类型为
string
- lymph_nodes_examined_positive: 检查阳性的淋巴结数量,数据类型为
float64
- nottingham_prognostic_index: 诺丁汉预后指数,数据类型为
float64
- oncotree_code: OncoTree代码,数据类型为
string
- pr_status: PR状态,数据类型为
string
- radio_therapy: 是否接受放射治疗,数据类型为
int64
- 3-gene_classifier_subtype: 3基因分类器亚型,数据类型为
string
- tumor_size: 肿瘤大小,数据类型为
float64
- tumor_stage: 肿瘤阶段,数据类型为
float64
- death_from_cancer: 癌症导致的死亡,数据类型为
string
- brca1: BRCA1基因,数据类型为
float64
- brca2: BRCA2基因,数据类型为
float64
- palb2: PALB2基因,数据类型为
float64
- pten: PTEN基因,数据类型为
float64
- tp53: TP53基因,数据类型为
float64
- atm: ATM基因,数据类型为
float64
- cdh1: CDH1基因,数据类型为
float64
- chek2: CHEK2基因,数据类型为
float64
- nbn: NBN基因,数据类型为
float64
- nf1: NF1基因,数据类型为
float64
- stk11: STK11基因,数据类型为
float64
- bard1: BARD1基因,数据类型为
float64
- mlh1: MLH1基因,数据类型为
float64
- msh2: MSH2基因,数据类型为
float64
- msh6: MSH6基因,数据类型为
float64
- pms2: PMS2基因,数据类型为
float64
- epcam: EPCAM基因,数据类型为
float64
- rad51c: RAD51C基因,数据类型为
float64
- rad51d: RAD51D基因,数据类型为
float64
- rad50: RAD50基因,数据类型为
float64
- rb1: RB1基因,数据类型为
float64
- rbl1: RBL1基因,数据类型为
float64
- rbl2: RBL2基因,数据类型为
float64
- ccna1: CCNA1基因,数据类型为
float64
- ccnb1: CCNB1基因,数据类型为
float64
- cdk1: CDK1基因,数据类型为
float64
- ccne1: CCNE1基因,数据类型为
float64
- cdk2: CDK2基因,数据类型为
float64
- cdc25a: CDC25A基因,数据类型为
float64
- ccnd1: CCND1基因,数据类型为
float64
- cdk4: CDK4基因,数据类型为
float64
- cdk6: CDK6基因,数据类型为
float64
- ccnd2: CCND2基因,数据类型为
float64
- cdkn2a: CDKN2A基因,数据类型为
float64
- cdkn2b: CDKN2B基因,数据类型为
float64
- myc: MYC基因,数据类型为
float64
- cdkn1a: CDKN1A基因,数据类型为
float64
- cdkn1b: CDKN1B基因,数据类型为
float64
- e2f1: E2F1基因,数据类型为
float64
- e2f2: E2F2基因,数据类型为
float64
- e2f3: E2F3基因,数据类型为
float64
- e2f4: E2F4基因,数据类型为
float64
- e2f5: E2F5基因,数据类型为
float64
- e2f6: E2F6基因,数据类型为
float64
- e2f7: E2F7基因,数据类型为
float64
- e2f8: E2F8基因,数据类型为
float64
- src: SRC基因,数据类型为
float64
- jak1: JAK1基因,数据类型为
float64
- jak2: JAK2基因,数据类型为
float64
- stat1: STAT1基因,数据类型为
float64
- stat2: STAT2基因,数据类型为
float64
- stat3: STAT3基因,数据类型为
float64
- stat5a: STAT5A基因,数据类型为
float64
- stat5b: STAT5B基因,数据类型为
float64
- mdm2: MDM2基因,数据类型为
float64
- tp53bp1: TP53BP1基因,数据类型为
float64
- adam10: ADAM10基因,数据类型为
float64
- adam17: ADAM17基因,数据类型为
float64
- aph1a: APH1A基因,数据类型为
float64
- aph1b: APH1B基因,数据类型为
float64
- arrdc1: ARRDC1基因,数据类型为
float64
- cir1: CIR1基因,数据类型为
float64
- ctbp1: CTBP1基因,数据类型为
float64
- ctbp2: CTBP2基因,数据类型为
float64
- cul1: CUL1基因,数据类型为
float64
- dll1: DLL1基因,数据类型为
float64
- dll3: DLL3基因,数据类型为
float64
- dll4: DLL4基因,数据类型为
float64
- dtx1: DTX1基因,数据类型为
float64
- dtx2: DTX2基因,数据类型为
float64
- dtx3: DTX3基因,数据类型为
float64
- dtx4: DTX4基因,数据类型为
float64
- ep300: EP300基因,数据类型为
float64
- fbxw7: FBXW7基因,数据类型为
float64
- hdac1: HDAC1基因,数据类型为
float64
- hdac2: HDAC2基因,数据类型为
float64
- hes1: HES1基因,数据类型为
float64
- hes5: HES5基因,数据类型为
float64
- heyl: HEYL基因,数据类型为
float64
- itch: ITCH基因,数据类型为
float64
- jag1: JAG1基因,数据类型为
float64
- jag2: JAG2基因,数据类型为
float64
- kdm5a: KDM5A基因,数据类型为
float64
- lfng: LFNG基因,数据类型为
float64
- maml1: MAML1基因,数据类型为
float64
- maml2: MAML2基因,数据类型为
float64
- maml3: MAML3基因,数据类型为
float64
- ncor2: NCOR2基因,数据类型为
float64
- ncstn: NCSTN基因,数据类型为
float64
- notch1: NOTCH1基因,数据类型为
float64
- notch2: NOTCH2基因,数据类型为
float64
- notch3: NOTCH3基因,数据类型为
float64
- nrarp: NRARP基因,数据类型为
float64
- numb: NUMB基因,数据类型为
float64
- numbl: NUMBL基因,数据类型为
float64
- psen1: PSEN1基因,数据类型为
float64
- psen2: PSEN2基因,数据类型为
float64
- psenen: PSENEN基因,数据类型为
float64
- rbpj: RBPJ基因,数据类型为
float64
- rbpjl: RBPJL基因,数据类型为
float64
- rfng: RFNG基因,数据类型为
float64
- snw1: SNW1基因,数据类型为
float64
- spen: SPEN基因,数据类型为
float64
- hes2: HES2基因,数据类型为
float64
- hes4: HES4基因,数据类型为
float64
- hes7: HES7基因,数据类型为
float64
- hey1: HEY1基因,数据类型为
float64
- hey2: HEY2基因,数据类型为
float64
- acvr1: ACVR1基因,数据类型为
float64
- acvr1b: ACVR1B基因,数据类型为
float64
- acvr1c: ACVR1C基因,数据类型为
float64
- acvr2a: ACVR2A基因,数据类型为
float64
- acvr2b: ACVR2B基因,数据类型为
float64
- acvrl1: ACVRL1基因,数据类型为
float64
- akt1: AKT1基因,数据类型为
float64
- akt1s1: AKT1S1基因,数据类型为
float64
- akt2: AKT2基因,数据类型为
float64
- apaf1: APAF1基因,数据类型为
float64
- arl11: ARL11基因,数据类型为
float64
- atr: ATR基因,数据类型为
float64
- aurka: AURKA基因,数据类型为
float64
- bad: BAD基因,数据类型为
float64
- bcl2: BCL2基因,数据类型为
float64
- bcl2l1: BCL2L1基因,数据类型为
float64
- bmp10: BMP10基因,数据类型为
float64
- bmp15: BMP15基因,数据类型为
float64
- bmp2: BMP2基因,数据类型为
float64
- bmp3: BMP3基因,数据类型为
float64
- bmp4: BMP4基因,数据类型为
float64
- bmp5: BMP5基因,数据类型为
float64
- bmp6: BMP6基因,数据类型为
float64
- bmp7: BMP7基因,数据类型为
float64
- bmpr1a: BMPR1A基因,数据类型为
float64
- bmpr1b: BMPR1B基因,数据类型为
float64
- bmpr2: BMPR2基因,数据类型为
float64
- braf: BRAF基因,数据类型为
float64
- casp10: CASP10基因,数据类型为
float64
- casp3: CASP3基因,数据类型为
float64
- casp6: CASP6基因,数据类型为
float64
- casp7: CASP7基因,数据类型为
float64
- casp8: CASP8基因,数据类型为
float64
- casp9: CASP9基因,数据类型为
float64
- chek1: CHEK1基因,数据类型为
float64
- csf1: CSF1基因,数据类型为
float64
- csf1r: CSF1R基因,数据类型为
float64
- cxcl8: CXCL8基因,数据类型为
float64
- cxcr1: CXCR1基因,数据类型为
float64
- cxcr2: CXCR2基因,数据类型为
float64
- dab2: DAB2基因,数据类型为
float64
- diras3: DIRAS3基因,数据类型为
float64
- dlec1: DLEC1基因,数据类型为
float64
- dph1: DPH1基因,数据类型为
float64
- egfr: EGFR基因,数据类型为
float64
- eif4e: EIF4E基因,数据类型为
float64
- eif4ebp1: EIF4EBP1基因,数据类型为
float64
- eif5a2: EIF5A2基因,数据类型为
float64
- erbb2: ERBB2基因,数据类型为
float64
- erbb3: ERBB3基因,数据类型为
float64
- erbb4: ERBB4基因,数据类型为
float64
- fas: FAS基因,数据类型为
float64
- fgf1: FGF1基因,数据类型为
float64
- fgfr1: FGFR1基因,数据类型为
float64
- folr1: FOLR1基因,数据类型为
float64
- folr2: FOLR2基因,数据类型为
float64
- folr3: FOLR3基因,数据类型为
float64
- foxo1: FOXO1基因,数据类型为
float64
- foxo3: FOXO3基因,数据类型为
float64
- gdf11: GDF11基因,数据类型为
float64
- gdf2: GDF2基因,数据类型为
float64
- gsk3b: GSK3B基因,数据类型为
float64
- hif1a: HIF1

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国光伏电站空间分布ChinaPV数据集(2015,2020年)
该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。
国家地球系统科学数据中心 收录
中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录