five

wangd12/oncogpt_unified

收藏
Hugging Face2026-04-16 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/wangd12/oncogpt_unified
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: registry features: - name: sample_id dtype: large_string - name: source dtype: large_string - name: patient_id dtype: large_string - name: study_id dtype: large_string - name: split dtype: large_string - name: genomics_rna_bulk_paths list: 'null' - name: genomics_rna_bulk_feature_path dtype: large_string - name: genomics_dna_methylation_paths list: 'null' - name: genomics_dna_methylation_feature_path dtype: large_string - name: genomics_cnv_paths list: 'null' - name: genomics_cnv_feature_path dtype: large_string - name: pathology_wsi_paths list: string - name: radiology_image_paths list: string - name: pathology_mask_paths list: 'null' - name: pathology_segmentation_slide_image_paths list: 'null' - name: pathology_segmentation_overlay_paths list: 'null' - name: pathology_segmentation_metadata_paths list: 'null' - name: radiology_mask_paths list: 'null' - name: pathology_tile_embedding_paths list: 'null' - name: pathology_slide_embedding_paths list: 'null' - name: radiology_embedding_paths list: 'null' - name: biomarkers_text dtype: large_string - name: question dtype: large_string - name: answer dtype: large_string - name: split_group_id dtype: large_string - name: split_scheme_version dtype: large_string - name: project_id dtype: large_string - name: primary_site dtype: large_string - name: disease_type dtype: large_string - name: primary_diagnosis dtype: large_string - name: tumor_grade dtype: large_string - name: tumor_stage dtype: large_string - name: ajcc_pathologic_stage dtype: large_string - name: ajcc_pathologic_t dtype: large_string - name: ajcc_pathologic_n dtype: large_string - name: ajcc_pathologic_m dtype: large_string - name: age_at_diagnosis dtype: large_string - name: morphology dtype: large_string - name: last_known_disease_status dtype: large_string - name: days_to_last_known_disease_status dtype: large_string - name: days_to_recurrence dtype: large_string - name: vital_status dtype: large_string - name: days_to_last_follow_up dtype: large_string - name: days_to_death dtype: large_string - name: gender dtype: large_string - name: race dtype: large_string - name: ethnicity dtype: large_string - name: year_of_birth dtype: large_string - name: kidney_histology_subtype dtype: large_string - name: task_grade_label dtype: large_string - name: task_stage_label dtype: large_string - name: task_survival_event dtype: bool - name: task_survival_days dtype: float64 - name: mutation_ssm_ids list: 'null' - name: mutation_types list: 'null' - name: mutation_consequence_terms list: 'null' - name: mutated_gene_symbols list: 'null' - name: mutation_query_succeeded dtype: bool - name: mutation_panel_version dtype: large_string - name: mutation_panel_observed dtype: bool - name: mutation_event_count dtype: int64 - name: mutation_unique_gene_count dtype: int64 - name: project_driver_gene_mutations list: 'null' - name: pathology_file_ids list: string - name: tcia_collections list: string - name: tcia_study_uids list: string - name: tcia_series_uids list: string - name: tcia_modalities list: string - name: tcia_body_parts list: string - name: tcia_study_dates list: string - name: tcia_study_descriptions list: string - name: tcia_series_descriptions list: string - name: radiology_uri_paths list: string - name: radiology_download_paths list: 'null' - name: report_pdf_paths list: string - name: report_file_ids list: string - name: report_file_names list: string - name: has_pathology dtype: bool - name: has_radiology dtype: bool - name: mutation_ajuba dtype: bool - name: mutation_akt1 dtype: bool - name: mutation_apc dtype: bool - name: mutation_arid1a dtype: bool - name: mutation_arid2 dtype: bool - name: mutation_atm dtype: bool - name: mutation_atrx dtype: bool - name: mutation_bap1 dtype: bool - name: mutation_bcor dtype: bool - name: mutation_braf dtype: bool - name: mutation_casp8 dtype: bool - name: mutation_cd79b dtype: bool - name: mutation_cdh1 dtype: bool - name: mutation_cdkn2a dtype: bool - name: mutation_cftr dtype: bool - name: mutation_cic dtype: bool - name: mutation_cnbd1 dtype: bool - name: mutation_col5a1 dtype: bool - name: mutation_ctcf dtype: bool - name: mutation_ctnnb1 dtype: bool - name: mutation_ctnnd1 dtype: bool - name: mutation_cul3 dtype: bool - name: mutation_dyrk1a dtype: bool - name: mutation_egfr dtype: bool - name: mutation_eif1ax dtype: bool - name: mutation_ep300 dtype: bool - name: mutation_epas1 dtype: bool - name: mutation_erbb2 dtype: bool - name: mutation_fbxw7 dtype: bool - name: mutation_fgfr3 dtype: bool - name: mutation_flna dtype: bool - name: mutation_foxa1 dtype: bool - name: mutation_fubp1 dtype: bool - name: mutation_gna11 dtype: bool - name: mutation_gnaq dtype: bool - name: mutation_gnas dtype: bool - name: mutation_gtf2i dtype: bool - name: mutation_hla-b dtype: bool - name: mutation_hras dtype: bool - name: mutation_idh1 dtype: bool - name: mutation_idh2 dtype: bool - name: mutation_kansl1 dtype: bool - name: mutation_kcnq5 dtype: bool - name: mutation_kdm5c dtype: bool - name: mutation_kdm6a dtype: bool - name: mutation_kif1a dtype: bool - name: mutation_kit dtype: bool - name: mutation_kmt2b dtype: bool - name: mutation_kmt2c dtype: bool - name: mutation_kmt2d dtype: bool - name: mutation_kras dtype: bool - name: mutation_lats1 dtype: bool - name: mutation_map2k1 dtype: bool - name: mutation_map2k4 dtype: bool - name: mutation_map3k1 dtype: bool - name: mutation_max dtype: bool - name: mutation_mtor dtype: bool - name: mutation_myd88 dtype: bool - name: mutation_ncor1 dtype: bool - name: mutation_ndufs1 dtype: bool - name: mutation_nf1 dtype: bool - name: mutation_nf2 dtype: bool - name: mutation_notch1 dtype: bool - name: mutation_nras dtype: bool - name: mutation_nsd1 dtype: bool - name: mutation_nup93 dtype: bool - name: mutation_pbrm1 dtype: bool - name: mutation_pds5b dtype: bool - name: mutation_pik3ca dtype: bool - name: mutation_pik3r1 dtype: bool - name: mutation_pim1 dtype: bool - name: mutation_pten dtype: bool - name: mutation_rb1 dtype: bool - name: mutation_rbm10 dtype: bool - name: mutation_ret dtype: bool - name: mutation_rps6ka3 dtype: bool - name: mutation_rras2 dtype: bool - name: mutation_runx1 dtype: bool - name: mutation_rxra dtype: bool - name: mutation_scaf4 dtype: bool - name: mutation_setd2 dtype: bool - name: mutation_sf3b1 dtype: bool - name: mutation_smad4 dtype: bool - name: mutation_smc1a dtype: bool - name: mutation_spop dtype: bool - name: mutation_stag2 dtype: bool - name: mutation_stk11 dtype: bool - name: mutation_tp53 dtype: bool - name: mutation_tsc1 dtype: bool - name: mutation_vhl dtype: bool splits: - name: train num_bytes: 18826491 num_examples: 9712 - name: val num_bytes: 1106853 num_examples: 577 - name: test num_bytes: 2116939 num_examples: 1139 download_size: 6571233 dataset_size: 22050283 configs: - config_name: registry data_files: - split: train path: registry/train-* - split: val path: registry/val-* - split: test path: registry/test-* default: true ---

数据集信息: 配置名称:registry 特征字段: 1. 样本ID(sample_id):大字符串数据类型 2. 来源(source):大字符串数据类型 3. 患者ID(patient_id):大字符串数据类型 4. 研究ID(study_id):大字符串数据类型 5. 划分集(split):大字符串数据类型 6. 批量RNA测序基因组数据路径(genomics_rna_bulk_paths):列表类型,值为null 7. 批量RNA测序基因组特征路径(genomics_rna_bulk_feature_path):大字符串数据类型 8. DNA甲基化基因组数据路径(genomics_dna_methylation_paths):列表类型,值为null 9. DNA甲基化基因组特征路径(genomics_dna_methylation_feature_path):大字符串数据类型 10. 拷贝数变异基因组数据路径(genomics_cnv_paths):列表类型,值为null 11. 拷贝数变异基因组特征路径(genomics_cnv_feature_path):大字符串数据类型 12. 病理全切片图像(Whole Slide Image, WSI)路径(pathology_wsi_paths):字符串列表类型 13. 放射影像学图像路径(radiology_image_paths):字符串列表类型 14. 病理掩码路径(pathology_mask_paths):列表类型,值为null 15. 病理分割切片图像路径(pathology_segmentation_slide_image_paths):列表类型,值为null 16. 病理分割叠加图像路径(pathology_segmentation_overlay_paths):列表类型,值为null 17. 病理分割元数据路径(pathology_segmentation_metadata_paths):列表类型,值为null 18. 放射学掩码路径(radiology_mask_paths):列表类型,值为null 19. 病理瓦片嵌入路径(pathology_tile_embedding_paths):列表类型,值为null 20. 病理切片嵌入路径(pathology_slide_embedding_paths):列表类型,值为null 21. 放射学嵌入路径(radiology_embedding_paths):列表类型,值为null 22. 生物标志物文本(biomarkers_text):大字符串数据类型 23. 问题(question):大字符串数据类型 24. 答案(answer):大字符串数据类型 25. 划分组ID(split_group_id):大字符串数据类型 26. 划分方案版本(split_scheme_version):大字符串数据类型 27. 项目ID(project_id):大字符串数据类型 28. 原发部位(primary_site):大字符串数据类型 29. 疾病类型(disease_type):大字符串数据类型 30. 初步诊断(primary_diagnosis):大字符串数据类型 31. 肿瘤分级(tumor_grade):大字符串数据类型 32. 肿瘤分期(tumor_stage):大字符串数据类型 33. 美国癌症联合委员会病理分期(ajcc_pathologic_stage):大字符串数据类型 34. 美国癌症联合委员会原发肿瘤分期(ajcc_pathologic_t):大字符串数据类型 35. 美国癌症联合委员会区域淋巴结分期(ajcc_pathologic_n):大字符串数据类型 36. 美国癌症联合委员会远处转移分期(ajcc_pathologic_m):大字符串数据类型 37. 诊断时年龄(age_at_diagnosis):大字符串数据类型 38. 形态学特征(morphology):大字符串数据类型 39. 末次已知疾病状态(last_known_disease_status):大字符串数据类型 40. 末次已知疾病状态距当前天数(days_to_last_known_disease_status):大字符串数据类型 41. 复发天数(days_to_recurrence):大字符串数据类型 42. 生存状态(vital_status):大字符串数据类型 43. 末次随访天数(days_to_last_follow_up):大字符串数据类型 44. 死亡天数(days_to_death):大字符串数据类型 45. 性别(gender):大字符串数据类型 46. 种族(race):大字符串数据类型 47. 族裔(ethnicity):大字符串数据类型 48. 出生年份(year_of_birth):大字符串数据类型 49. 肾脏组织学亚型(kidney_histology_subtype):大字符串数据类型 50. 任务分级标签(task_grade_label):大字符串数据类型 51. 任务分期标签(task_stage_label):大字符串数据类型 52. 任务生存事件(task_survival_event):布尔数据类型 53. 任务生存天数(task_survival_days):64位浮点数据类型 54. 单核苷酸变异ID列表(mutation_ssm_ids):列表类型,值为null 55. 突变类型列表(mutation_types):列表类型,值为null 56. 突变后果术语列表(mutation_consequence_terms):列表类型,值为null 57. 突变基因符号列表(mutated_gene_symbols):列表类型,值为null 58. 突变查询成功状态(mutation_query_succeeded):布尔数据类型 59. 突变检测面板版本(mutation_panel_version):大字符串数据类型 60. 突变检测面板观测状态(mutation_panel_observed):布尔数据类型 61. 突变事件总数(mutation_event_count):64位整型数据类型 62. 突变独特基因总数(mutation_unique_gene_count):64位整型数据类型 63. 项目驱动基因突变列表(project_driver_gene_mutations):列表类型,值为null 64. 病理文件ID列表(pathology_file_ids):字符串列表类型 65. 癌症影像存档库(The Cancer Imaging Archive, TCIA)集合列表(tcia_collections):字符串列表类型 66. TCIA研究UID列表(tcia_study_uids):字符串列表类型 67. TCIA序列UID列表(tcia_series_uids):字符串列表类型 68. TCIA模态列表(tcia_modalities):字符串列表类型 69. TCIA检查部位列表(tcia_body_parts):字符串列表类型 70. TCIA检查日期列表(tcia_study_dates):字符串列表类型 71. TCIA研究描述列表(tcia_study_descriptions):字符串列表类型 72. TCIA序列描述列表(tcia_series_descriptions):字符串列表类型 73. 放射学URI路径(radiology_uri_paths):字符串列表类型 74. 放射学下载路径(radiology_download_paths):列表类型,值为null 75. 报告PDF路径(report_pdf_paths):字符串列表类型 76. 报告文件ID列表(report_file_ids):字符串列表类型 77. 报告文件名列表(report_file_names):字符串列表类型 78. 是否存在病理数据(has_pathology):布尔数据类型 79. 是否存在放射学数据(has_radiology):布尔数据类型 80. AJUBA基因突变(mutation_ajuba):布尔数据类型 81. AKT1基因突变(mutation_akt1):布尔数据类型 82. APC基因突变(mutation_apc):布尔数据类型 83. ARID1A基因突变(mutation_arid1a):布尔数据类型 84. ARID2基因突变(mutation_arid2):布尔数据类型 85. ATM基因突变(mutation_atm):布尔数据类型 86. ATRX基因突变(mutation_atrx):布尔数据类型 87. BAP1基因突变(mutation_bap1):布尔数据类型 88. BCOR基因突变(mutation_bcor):布尔数据类型 89. BRAF基因突变(mutation_braf):布尔数据类型 90. CASP8基因突变(mutation_casp8):布尔数据类型 91. CD79B基因突变(mutation_cd79b):布尔数据类型 92. CDH1基因突变(mutation_cdh1):布尔数据类型 93. CDKN2A基因突变(mutation_cdkn2a):布尔数据类型 94. CFTR基因突变(mutation_cftr):布尔数据类型 95. CIC基因突变(mutation_cic):布尔数据类型 96. CNBD1基因突变(mutation_cnbd1):布尔数据类型 97. COL5A1基因突变(mutation_col5a1):布尔数据类型 98. CTCF基因突变(mutation_ctcf):布尔数据类型 99. CTNNB1基因突变(mutation_ctnnb1):布尔数据类型 100. CTNND1基因突变(mutation_ctnnd1):布尔数据类型 101. CUL3基因突变(mutation_cul3):布尔数据类型 102. DYRK1A基因突变(mutation_dyrk1a):布尔数据类型 103. EGFR基因突变(mutation_egfr):布尔数据类型 104. EIF1AX基因突变(mutation_eif1ax):布尔数据类型 105. EP300基因突变(mutation_ep300):布尔数据类型 106. EPAS1基因突变(mutation_epas1):布尔数据类型 107. ERBB2基因突变(mutation_erbb2):布尔数据类型 108. FBXW7基因突变(mutation_fbxw7):布尔数据类型 109. FGFR3基因突变(mutation_fgfr3):布尔数据类型 110. FLNA基因突变(mutation_flna):布尔数据类型 111. FOXA1基因突变(mutation_foxa1):布尔数据类型 112. FUBP1基因突变(mutation_fubp1):布尔数据类型 113. GNA11基因突变(mutation_gna11):布尔数据类型 114. GNAQ基因突变(mutation_gnaq):布尔数据类型 115. GNAS基因突变(mutation_gnas):布尔数据类型 116. GTF2I基因突变(mutation_gtf2i):布尔数据类型 117. HLA-B基因突变(mutation_hla-b):布尔数据类型 118. HRAS基因突变(mutation_hras):布尔数据类型 119. IDH1基因突变(mutation_idh1):布尔数据类型 120. IDH2基因突变(mutation_idh2):布尔数据类型 121. KANSL1基因突变(mutation_kansl1):布尔数据类型 122. KCNQ5基因突变(mutation_kcnq5):布尔数据类型 123. KDM5C基因突变(mutation_kdm5c):布尔数据类型 124. KDM6A基因突变(mutation_kdm6a):布尔数据类型 125. KIF1A基因突变(mutation_kif1a):布尔数据类型 126. KIT基因突变(mutation_kit):布尔数据类型 127. KMT2B基因突变(mutation_kmt2b):布尔数据类型 128. KMT2C基因突变(mutation_kmt2c):布尔数据类型 129. KMT2D基因突变(mutation_kmt2d):布尔数据类型 130. KRAS基因突变(mutation_kras):布尔数据类型 131. LATS1基因突变(mutation_lats1):布尔数据类型 132. MAP2K1基因突变(mutation_map2k1):布尔数据类型 133. MAP2K4基因突变(mutation_map2k4):布尔数据类型 134. MAP3K1基因突变(mutation_map3k1):布尔数据类型 135. MAX基因突变(mutation_max):布尔数据类型 136. MTOR基因突变(mutation_mtor):布尔数据类型 137. MYD88基因突变(mutation_myd88):布尔数据类型 138. NCOR1基因突变(mutation_ncor1):布尔数据类型 139. NDUFS1基因突变(mutation_ndufs1):布尔数据类型 140. NF1基因突变(mutation_nf1):布尔数据类型 141. NF2基因突变(mutation_nf2):布尔数据类型 142. NOTCH1基因突变(mutation_notch1):布尔数据类型 143. NRAS基因突变(mutation_nras):布尔数据类型 144. NSD1基因突变(mutation_nsd1):布尔数据类型 145. NUP93基因突变(mutation_nup93):布尔数据类型 146. PBRM1基因突变(mutation_pbrm1):布尔数据类型 147. PDS5B基因突变(mutation_pds5b):布尔数据类型 148. PIK3CA基因突变(mutation_pik3ca):布尔数据类型 149. PIK3R1基因突变(mutation_pik3r1):布尔数据类型 150. PIM1基因突变(mutation_pim1):布尔数据类型 151. PTEN基因突变(mutation_pten):布尔数据类型 152. RB1基因突变(mutation_rb1):布尔数据类型 153. RBM10基因突变(mutation_rbm10):布尔数据类型 154. RET基因突变(mutation_ret):布尔数据类型 155. RPS6KA3基因突变(mutation_rps6ka3):布尔数据类型 156. RRAS2基因突变(mutation_rras2):布尔数据类型 157. RUNX1基因突变(mutation_runx1):布尔数据类型 158. RXRA基因突变(mutation_rxra):布尔数据类型 159. SCAF4基因突变(mutation_scaf4):布尔数据类型 160. SETD2基因突变(mutation_setd2):布尔数据类型 161. SF3B1基因突变(mutation_sf3b1):布尔数据类型 162. SMAD4基因突变(mutation_smad4):布尔数据类型 163. SMC1A基因突变(mutation_smc1a):布尔数据类型 164. SPOP基因突变(mutation_spop):布尔数据类型 165. STAG2基因突变(mutation_stag2):布尔数据类型 166. STK11基因突变(mutation_stk11):布尔数据类型 167. TP53基因突变(mutation_tp53):布尔数据类型 168. TSC1基因突变(mutation_tsc1):布尔数据类型 169. VHL基因突变(mutation_vhl):布尔数据类型 数据集划分: 1. 训练集(train):数据字节数18826491,样本量9712 2. 验证集(val):数据字节数1106853,样本量577 3. 测试集(test):数据字节数2116939,样本量1139 总下载大小:6571233字节,数据集总大小:22050283字节 配置信息: - 配置名称:registry,数据文件划分如下: - 训练集:对应registry/train-* 文件 - 验证集:对应registry/val-* 文件 - 测试集:对应registry/test-* 文件 该配置为默认配置
提供机构:
wangd12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作