wangd12/oncogpt_unified
收藏Hugging Face2026-04-16 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/wangd12/oncogpt_unified
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: registry
features:
- name: sample_id
dtype: large_string
- name: source
dtype: large_string
- name: patient_id
dtype: large_string
- name: study_id
dtype: large_string
- name: split
dtype: large_string
- name: genomics_rna_bulk_paths
list: 'null'
- name: genomics_rna_bulk_feature_path
dtype: large_string
- name: genomics_dna_methylation_paths
list: 'null'
- name: genomics_dna_methylation_feature_path
dtype: large_string
- name: genomics_cnv_paths
list: 'null'
- name: genomics_cnv_feature_path
dtype: large_string
- name: pathology_wsi_paths
list: string
- name: radiology_image_paths
list: string
- name: pathology_mask_paths
list: 'null'
- name: pathology_segmentation_slide_image_paths
list: 'null'
- name: pathology_segmentation_overlay_paths
list: 'null'
- name: pathology_segmentation_metadata_paths
list: 'null'
- name: radiology_mask_paths
list: 'null'
- name: pathology_tile_embedding_paths
list: 'null'
- name: pathology_slide_embedding_paths
list: 'null'
- name: radiology_embedding_paths
list: 'null'
- name: biomarkers_text
dtype: large_string
- name: question
dtype: large_string
- name: answer
dtype: large_string
- name: split_group_id
dtype: large_string
- name: split_scheme_version
dtype: large_string
- name: project_id
dtype: large_string
- name: primary_site
dtype: large_string
- name: disease_type
dtype: large_string
- name: primary_diagnosis
dtype: large_string
- name: tumor_grade
dtype: large_string
- name: tumor_stage
dtype: large_string
- name: ajcc_pathologic_stage
dtype: large_string
- name: ajcc_pathologic_t
dtype: large_string
- name: ajcc_pathologic_n
dtype: large_string
- name: ajcc_pathologic_m
dtype: large_string
- name: age_at_diagnosis
dtype: large_string
- name: morphology
dtype: large_string
- name: last_known_disease_status
dtype: large_string
- name: days_to_last_known_disease_status
dtype: large_string
- name: days_to_recurrence
dtype: large_string
- name: vital_status
dtype: large_string
- name: days_to_last_follow_up
dtype: large_string
- name: days_to_death
dtype: large_string
- name: gender
dtype: large_string
- name: race
dtype: large_string
- name: ethnicity
dtype: large_string
- name: year_of_birth
dtype: large_string
- name: kidney_histology_subtype
dtype: large_string
- name: task_grade_label
dtype: large_string
- name: task_stage_label
dtype: large_string
- name: task_survival_event
dtype: bool
- name: task_survival_days
dtype: float64
- name: mutation_ssm_ids
list: 'null'
- name: mutation_types
list: 'null'
- name: mutation_consequence_terms
list: 'null'
- name: mutated_gene_symbols
list: 'null'
- name: mutation_query_succeeded
dtype: bool
- name: mutation_panel_version
dtype: large_string
- name: mutation_panel_observed
dtype: bool
- name: mutation_event_count
dtype: int64
- name: mutation_unique_gene_count
dtype: int64
- name: project_driver_gene_mutations
list: 'null'
- name: pathology_file_ids
list: string
- name: tcia_collections
list: string
- name: tcia_study_uids
list: string
- name: tcia_series_uids
list: string
- name: tcia_modalities
list: string
- name: tcia_body_parts
list: string
- name: tcia_study_dates
list: string
- name: tcia_study_descriptions
list: string
- name: tcia_series_descriptions
list: string
- name: radiology_uri_paths
list: string
- name: radiology_download_paths
list: 'null'
- name: report_pdf_paths
list: string
- name: report_file_ids
list: string
- name: report_file_names
list: string
- name: has_pathology
dtype: bool
- name: has_radiology
dtype: bool
- name: mutation_ajuba
dtype: bool
- name: mutation_akt1
dtype: bool
- name: mutation_apc
dtype: bool
- name: mutation_arid1a
dtype: bool
- name: mutation_arid2
dtype: bool
- name: mutation_atm
dtype: bool
- name: mutation_atrx
dtype: bool
- name: mutation_bap1
dtype: bool
- name: mutation_bcor
dtype: bool
- name: mutation_braf
dtype: bool
- name: mutation_casp8
dtype: bool
- name: mutation_cd79b
dtype: bool
- name: mutation_cdh1
dtype: bool
- name: mutation_cdkn2a
dtype: bool
- name: mutation_cftr
dtype: bool
- name: mutation_cic
dtype: bool
- name: mutation_cnbd1
dtype: bool
- name: mutation_col5a1
dtype: bool
- name: mutation_ctcf
dtype: bool
- name: mutation_ctnnb1
dtype: bool
- name: mutation_ctnnd1
dtype: bool
- name: mutation_cul3
dtype: bool
- name: mutation_dyrk1a
dtype: bool
- name: mutation_egfr
dtype: bool
- name: mutation_eif1ax
dtype: bool
- name: mutation_ep300
dtype: bool
- name: mutation_epas1
dtype: bool
- name: mutation_erbb2
dtype: bool
- name: mutation_fbxw7
dtype: bool
- name: mutation_fgfr3
dtype: bool
- name: mutation_flna
dtype: bool
- name: mutation_foxa1
dtype: bool
- name: mutation_fubp1
dtype: bool
- name: mutation_gna11
dtype: bool
- name: mutation_gnaq
dtype: bool
- name: mutation_gnas
dtype: bool
- name: mutation_gtf2i
dtype: bool
- name: mutation_hla-b
dtype: bool
- name: mutation_hras
dtype: bool
- name: mutation_idh1
dtype: bool
- name: mutation_idh2
dtype: bool
- name: mutation_kansl1
dtype: bool
- name: mutation_kcnq5
dtype: bool
- name: mutation_kdm5c
dtype: bool
- name: mutation_kdm6a
dtype: bool
- name: mutation_kif1a
dtype: bool
- name: mutation_kit
dtype: bool
- name: mutation_kmt2b
dtype: bool
- name: mutation_kmt2c
dtype: bool
- name: mutation_kmt2d
dtype: bool
- name: mutation_kras
dtype: bool
- name: mutation_lats1
dtype: bool
- name: mutation_map2k1
dtype: bool
- name: mutation_map2k4
dtype: bool
- name: mutation_map3k1
dtype: bool
- name: mutation_max
dtype: bool
- name: mutation_mtor
dtype: bool
- name: mutation_myd88
dtype: bool
- name: mutation_ncor1
dtype: bool
- name: mutation_ndufs1
dtype: bool
- name: mutation_nf1
dtype: bool
- name: mutation_nf2
dtype: bool
- name: mutation_notch1
dtype: bool
- name: mutation_nras
dtype: bool
- name: mutation_nsd1
dtype: bool
- name: mutation_nup93
dtype: bool
- name: mutation_pbrm1
dtype: bool
- name: mutation_pds5b
dtype: bool
- name: mutation_pik3ca
dtype: bool
- name: mutation_pik3r1
dtype: bool
- name: mutation_pim1
dtype: bool
- name: mutation_pten
dtype: bool
- name: mutation_rb1
dtype: bool
- name: mutation_rbm10
dtype: bool
- name: mutation_ret
dtype: bool
- name: mutation_rps6ka3
dtype: bool
- name: mutation_rras2
dtype: bool
- name: mutation_runx1
dtype: bool
- name: mutation_rxra
dtype: bool
- name: mutation_scaf4
dtype: bool
- name: mutation_setd2
dtype: bool
- name: mutation_sf3b1
dtype: bool
- name: mutation_smad4
dtype: bool
- name: mutation_smc1a
dtype: bool
- name: mutation_spop
dtype: bool
- name: mutation_stag2
dtype: bool
- name: mutation_stk11
dtype: bool
- name: mutation_tp53
dtype: bool
- name: mutation_tsc1
dtype: bool
- name: mutation_vhl
dtype: bool
splits:
- name: train
num_bytes: 18826491
num_examples: 9712
- name: val
num_bytes: 1106853
num_examples: 577
- name: test
num_bytes: 2116939
num_examples: 1139
download_size: 6571233
dataset_size: 22050283
configs:
- config_name: registry
data_files:
- split: train
path: registry/train-*
- split: val
path: registry/val-*
- split: test
path: registry/test-*
default: true
---
数据集信息:
配置名称:registry
特征字段:
1. 样本ID(sample_id):大字符串数据类型
2. 来源(source):大字符串数据类型
3. 患者ID(patient_id):大字符串数据类型
4. 研究ID(study_id):大字符串数据类型
5. 划分集(split):大字符串数据类型
6. 批量RNA测序基因组数据路径(genomics_rna_bulk_paths):列表类型,值为null
7. 批量RNA测序基因组特征路径(genomics_rna_bulk_feature_path):大字符串数据类型
8. DNA甲基化基因组数据路径(genomics_dna_methylation_paths):列表类型,值为null
9. DNA甲基化基因组特征路径(genomics_dna_methylation_feature_path):大字符串数据类型
10. 拷贝数变异基因组数据路径(genomics_cnv_paths):列表类型,值为null
11. 拷贝数变异基因组特征路径(genomics_cnv_feature_path):大字符串数据类型
12. 病理全切片图像(Whole Slide Image, WSI)路径(pathology_wsi_paths):字符串列表类型
13. 放射影像学图像路径(radiology_image_paths):字符串列表类型
14. 病理掩码路径(pathology_mask_paths):列表类型,值为null
15. 病理分割切片图像路径(pathology_segmentation_slide_image_paths):列表类型,值为null
16. 病理分割叠加图像路径(pathology_segmentation_overlay_paths):列表类型,值为null
17. 病理分割元数据路径(pathology_segmentation_metadata_paths):列表类型,值为null
18. 放射学掩码路径(radiology_mask_paths):列表类型,值为null
19. 病理瓦片嵌入路径(pathology_tile_embedding_paths):列表类型,值为null
20. 病理切片嵌入路径(pathology_slide_embedding_paths):列表类型,值为null
21. 放射学嵌入路径(radiology_embedding_paths):列表类型,值为null
22. 生物标志物文本(biomarkers_text):大字符串数据类型
23. 问题(question):大字符串数据类型
24. 答案(answer):大字符串数据类型
25. 划分组ID(split_group_id):大字符串数据类型
26. 划分方案版本(split_scheme_version):大字符串数据类型
27. 项目ID(project_id):大字符串数据类型
28. 原发部位(primary_site):大字符串数据类型
29. 疾病类型(disease_type):大字符串数据类型
30. 初步诊断(primary_diagnosis):大字符串数据类型
31. 肿瘤分级(tumor_grade):大字符串数据类型
32. 肿瘤分期(tumor_stage):大字符串数据类型
33. 美国癌症联合委员会病理分期(ajcc_pathologic_stage):大字符串数据类型
34. 美国癌症联合委员会原发肿瘤分期(ajcc_pathologic_t):大字符串数据类型
35. 美国癌症联合委员会区域淋巴结分期(ajcc_pathologic_n):大字符串数据类型
36. 美国癌症联合委员会远处转移分期(ajcc_pathologic_m):大字符串数据类型
37. 诊断时年龄(age_at_diagnosis):大字符串数据类型
38. 形态学特征(morphology):大字符串数据类型
39. 末次已知疾病状态(last_known_disease_status):大字符串数据类型
40. 末次已知疾病状态距当前天数(days_to_last_known_disease_status):大字符串数据类型
41. 复发天数(days_to_recurrence):大字符串数据类型
42. 生存状态(vital_status):大字符串数据类型
43. 末次随访天数(days_to_last_follow_up):大字符串数据类型
44. 死亡天数(days_to_death):大字符串数据类型
45. 性别(gender):大字符串数据类型
46. 种族(race):大字符串数据类型
47. 族裔(ethnicity):大字符串数据类型
48. 出生年份(year_of_birth):大字符串数据类型
49. 肾脏组织学亚型(kidney_histology_subtype):大字符串数据类型
50. 任务分级标签(task_grade_label):大字符串数据类型
51. 任务分期标签(task_stage_label):大字符串数据类型
52. 任务生存事件(task_survival_event):布尔数据类型
53. 任务生存天数(task_survival_days):64位浮点数据类型
54. 单核苷酸变异ID列表(mutation_ssm_ids):列表类型,值为null
55. 突变类型列表(mutation_types):列表类型,值为null
56. 突变后果术语列表(mutation_consequence_terms):列表类型,值为null
57. 突变基因符号列表(mutated_gene_symbols):列表类型,值为null
58. 突变查询成功状态(mutation_query_succeeded):布尔数据类型
59. 突变检测面板版本(mutation_panel_version):大字符串数据类型
60. 突变检测面板观测状态(mutation_panel_observed):布尔数据类型
61. 突变事件总数(mutation_event_count):64位整型数据类型
62. 突变独特基因总数(mutation_unique_gene_count):64位整型数据类型
63. 项目驱动基因突变列表(project_driver_gene_mutations):列表类型,值为null
64. 病理文件ID列表(pathology_file_ids):字符串列表类型
65. 癌症影像存档库(The Cancer Imaging Archive, TCIA)集合列表(tcia_collections):字符串列表类型
66. TCIA研究UID列表(tcia_study_uids):字符串列表类型
67. TCIA序列UID列表(tcia_series_uids):字符串列表类型
68. TCIA模态列表(tcia_modalities):字符串列表类型
69. TCIA检查部位列表(tcia_body_parts):字符串列表类型
70. TCIA检查日期列表(tcia_study_dates):字符串列表类型
71. TCIA研究描述列表(tcia_study_descriptions):字符串列表类型
72. TCIA序列描述列表(tcia_series_descriptions):字符串列表类型
73. 放射学URI路径(radiology_uri_paths):字符串列表类型
74. 放射学下载路径(radiology_download_paths):列表类型,值为null
75. 报告PDF路径(report_pdf_paths):字符串列表类型
76. 报告文件ID列表(report_file_ids):字符串列表类型
77. 报告文件名列表(report_file_names):字符串列表类型
78. 是否存在病理数据(has_pathology):布尔数据类型
79. 是否存在放射学数据(has_radiology):布尔数据类型
80. AJUBA基因突变(mutation_ajuba):布尔数据类型
81. AKT1基因突变(mutation_akt1):布尔数据类型
82. APC基因突变(mutation_apc):布尔数据类型
83. ARID1A基因突变(mutation_arid1a):布尔数据类型
84. ARID2基因突变(mutation_arid2):布尔数据类型
85. ATM基因突变(mutation_atm):布尔数据类型
86. ATRX基因突变(mutation_atrx):布尔数据类型
87. BAP1基因突变(mutation_bap1):布尔数据类型
88. BCOR基因突变(mutation_bcor):布尔数据类型
89. BRAF基因突变(mutation_braf):布尔数据类型
90. CASP8基因突变(mutation_casp8):布尔数据类型
91. CD79B基因突变(mutation_cd79b):布尔数据类型
92. CDH1基因突变(mutation_cdh1):布尔数据类型
93. CDKN2A基因突变(mutation_cdkn2a):布尔数据类型
94. CFTR基因突变(mutation_cftr):布尔数据类型
95. CIC基因突变(mutation_cic):布尔数据类型
96. CNBD1基因突变(mutation_cnbd1):布尔数据类型
97. COL5A1基因突变(mutation_col5a1):布尔数据类型
98. CTCF基因突变(mutation_ctcf):布尔数据类型
99. CTNNB1基因突变(mutation_ctnnb1):布尔数据类型
100. CTNND1基因突变(mutation_ctnnd1):布尔数据类型
101. CUL3基因突变(mutation_cul3):布尔数据类型
102. DYRK1A基因突变(mutation_dyrk1a):布尔数据类型
103. EGFR基因突变(mutation_egfr):布尔数据类型
104. EIF1AX基因突变(mutation_eif1ax):布尔数据类型
105. EP300基因突变(mutation_ep300):布尔数据类型
106. EPAS1基因突变(mutation_epas1):布尔数据类型
107. ERBB2基因突变(mutation_erbb2):布尔数据类型
108. FBXW7基因突变(mutation_fbxw7):布尔数据类型
109. FGFR3基因突变(mutation_fgfr3):布尔数据类型
110. FLNA基因突变(mutation_flna):布尔数据类型
111. FOXA1基因突变(mutation_foxa1):布尔数据类型
112. FUBP1基因突变(mutation_fubp1):布尔数据类型
113. GNA11基因突变(mutation_gna11):布尔数据类型
114. GNAQ基因突变(mutation_gnaq):布尔数据类型
115. GNAS基因突变(mutation_gnas):布尔数据类型
116. GTF2I基因突变(mutation_gtf2i):布尔数据类型
117. HLA-B基因突变(mutation_hla-b):布尔数据类型
118. HRAS基因突变(mutation_hras):布尔数据类型
119. IDH1基因突变(mutation_idh1):布尔数据类型
120. IDH2基因突变(mutation_idh2):布尔数据类型
121. KANSL1基因突变(mutation_kansl1):布尔数据类型
122. KCNQ5基因突变(mutation_kcnq5):布尔数据类型
123. KDM5C基因突变(mutation_kdm5c):布尔数据类型
124. KDM6A基因突变(mutation_kdm6a):布尔数据类型
125. KIF1A基因突变(mutation_kif1a):布尔数据类型
126. KIT基因突变(mutation_kit):布尔数据类型
127. KMT2B基因突变(mutation_kmt2b):布尔数据类型
128. KMT2C基因突变(mutation_kmt2c):布尔数据类型
129. KMT2D基因突变(mutation_kmt2d):布尔数据类型
130. KRAS基因突变(mutation_kras):布尔数据类型
131. LATS1基因突变(mutation_lats1):布尔数据类型
132. MAP2K1基因突变(mutation_map2k1):布尔数据类型
133. MAP2K4基因突变(mutation_map2k4):布尔数据类型
134. MAP3K1基因突变(mutation_map3k1):布尔数据类型
135. MAX基因突变(mutation_max):布尔数据类型
136. MTOR基因突变(mutation_mtor):布尔数据类型
137. MYD88基因突变(mutation_myd88):布尔数据类型
138. NCOR1基因突变(mutation_ncor1):布尔数据类型
139. NDUFS1基因突变(mutation_ndufs1):布尔数据类型
140. NF1基因突变(mutation_nf1):布尔数据类型
141. NF2基因突变(mutation_nf2):布尔数据类型
142. NOTCH1基因突变(mutation_notch1):布尔数据类型
143. NRAS基因突变(mutation_nras):布尔数据类型
144. NSD1基因突变(mutation_nsd1):布尔数据类型
145. NUP93基因突变(mutation_nup93):布尔数据类型
146. PBRM1基因突变(mutation_pbrm1):布尔数据类型
147. PDS5B基因突变(mutation_pds5b):布尔数据类型
148. PIK3CA基因突变(mutation_pik3ca):布尔数据类型
149. PIK3R1基因突变(mutation_pik3r1):布尔数据类型
150. PIM1基因突变(mutation_pim1):布尔数据类型
151. PTEN基因突变(mutation_pten):布尔数据类型
152. RB1基因突变(mutation_rb1):布尔数据类型
153. RBM10基因突变(mutation_rbm10):布尔数据类型
154. RET基因突变(mutation_ret):布尔数据类型
155. RPS6KA3基因突变(mutation_rps6ka3):布尔数据类型
156. RRAS2基因突变(mutation_rras2):布尔数据类型
157. RUNX1基因突变(mutation_runx1):布尔数据类型
158. RXRA基因突变(mutation_rxra):布尔数据类型
159. SCAF4基因突变(mutation_scaf4):布尔数据类型
160. SETD2基因突变(mutation_setd2):布尔数据类型
161. SF3B1基因突变(mutation_sf3b1):布尔数据类型
162. SMAD4基因突变(mutation_smad4):布尔数据类型
163. SMC1A基因突变(mutation_smc1a):布尔数据类型
164. SPOP基因突变(mutation_spop):布尔数据类型
165. STAG2基因突变(mutation_stag2):布尔数据类型
166. STK11基因突变(mutation_stk11):布尔数据类型
167. TP53基因突变(mutation_tp53):布尔数据类型
168. TSC1基因突变(mutation_tsc1):布尔数据类型
169. VHL基因突变(mutation_vhl):布尔数据类型
数据集划分:
1. 训练集(train):数据字节数18826491,样本量9712
2. 验证集(val):数据字节数1106853,样本量577
3. 测试集(test):数据字节数2116939,样本量1139
总下载大小:6571233字节,数据集总大小:22050283字节
配置信息:
- 配置名称:registry,数据文件划分如下:
- 训练集:对应registry/train-* 文件
- 验证集:对应registry/val-* 文件
- 测试集:对应registry/test-* 文件
该配置为默认配置
提供机构:
wangd12



