five

肝癌患者生存数据集,根据欧洲肝脏研究协会-欧洲癌症研究和治疗组织临床实践指南选择的49个特征

收藏
帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26095.html
下载链接
链接失效反馈
官方服务:
资源简介:
Data Set Information: HCC数据集是在葡萄牙的一所大学医院获得的,包括165名确诊为HCC的真实患者的人口统计学、风险因素、实验室和总体生存特征。该数据集包含根据EASL-EORTC(欧洲肝脏研究协会-欧洲癌症研究和治疗组织)临床实践指南选择的49个特征,这是目前肝癌管理的最新技术。 这是一个异构数据集,包含23个定量变量和26个定性变量。总体而言,缺失数据占整个数据集的10.22%,只有8名患者在所有领域拥有完整信息(4.85%)。目标变量为1年生存率,编码为二进制变量:0(死亡)和1(寿命)。也存在一定程度的阶级不平衡(63个案例被标记为A€?diesa€?和102个案例被标记为A€?livesa€?)。 Santos等人提供了HCC数据集(特征的类型/规模、范围、平均值/模式和缺失数据百分比)的详细描述。一种新的基于聚类的过采样方法,用于改善肝细胞癌患者的生存预测,《生物医学信息学杂志》,58,49-592015。 Attribute Information: Gender: nominal Symptoms: nominal Alcohol: nominal Hepatitis B Surface Antigen: nominal Hepatitis B e Antigen: nominal Hepatitis B Core Antibody: nominal Hepatitis C Virus Antibody: nominal Cirrhosis : nominal Endemic Countries: nominal Smoking: nominal Diabetes: nominal Obesity: nominal Hemochromatosis: nominal Arterial Hypertension: nominal Chronic Renal Insufficiency: nominal Human Immunodeficiency Virus: nominal Nonalcoholic Steatohepatitis: nominal Esophageal Varices: nominal Splenomegaly: nominal Portal Hypertension: nominal Portal Vein Thrombosis: nominal Liver metastasis: nominal Radiological Hallmark: nominal Age at diagnosis: integer Grams of Alcohol per day: continuous Packs of cigarets per year: continuous Performance Status: ordinal Encefalopathy degree: ordinal Ascites degree: ordinal International Normalised Ratio: continuous Alpha-Fetoprotein (ng/mL): continuous Haemoglobin (g/dL): continuous Mean Corpuscular Volume (fl): continuous Leukocytes(G/L): continuous Platelets (G/L): continuous Albumin (mg/dL): continuous Total Bilirubin(mg/dL): continuous Alanine transaminase (U/L): continuous Aspartate transaminase (U/L): continuous Gamma glutamyl transferase (U/L): continuous Alkaline phosphatase (U/L): continuous Total Proteins (g/dL): continuous Creatinine (mg/dL): continuous Number of Nodules: integer Major dimension of nodule (cm): continuous Direct Bilirubin (mg/dL): continuous Iron (mcg/dL): continuous Oxygen Saturation (%): continuous Ferritin (ng/mL): continuous Class: nominal (1 if patient survives, 0 if patient died) Relevant Papers: Miriam Seoane Santos, Pedro Henriques Abreu, Pedro J Garcia-Laencina, Adelia Simao, Armando Carvalho, A new cluster-based oversampling method for improving survival prediction of hepatocellular carcinoma patients, Journal of biomedical informatics, 58, 49-59, 2015. Citation Request: Miriam Seoane Santos, Pedro Henriques Abreu, Pedro J Garcia-Laencina, Adelia Simao, Armando Carvalho, A new cluster-based oversampling method for improving survival prediction of hepatocellular carcinoma patients, Journal of biomedical informatics, 58, 49-59, 2015. Donors: Miriam Seoane Santos, Department of Informatics Engineering, Faculty of Sciences and Technology, University of Coimbra (miriams '@' student.dei.uc.pt) Pedro Henriques Abreu, Department of Informatics Engineering, Faculty of Sciences and Technology, University of Coimbra (pha '@' dei.uc.pt) Armando Carvalho, Internal Medicine Service, Hospital and University Centre of Coimbra (aspcarvalho '@' gmail.com) Ad??lia Sim?£o, Internal Medicine Service, Hospital and University Centre of Coimbra (adeliasimao '@' gmail.com)

### 数据集信息 本数据集源自葡萄牙某大学附属医院,收录了165名经确诊的肝细胞癌(Hepatocellular Carcinoma, HCC)患者的人口统计学资料、风险因素、实验室检测指标及总生存特征。数据集内的49项特征均依据欧洲肝脏研究协会-欧洲癌症研究与治疗组织(EASL-EORTC)临床实践指南筛选,该指南为当前肝癌临床管理的权威标准方案。 本数据集属于异构型数据集,涵盖23个定量变量与26个定性变量。整体而言,数据集内缺失数据占比达10.22%,仅8名患者(占比4.85%)的所有字段信息完整。 目标变量为1年生存状态,采用二进制编码:0代表患者死亡,1代表患者存活。数据集存在一定程度的类别不平衡:63个样本标记为死亡(0类),102个样本标记为存活(1类)。 Santos等人已对该HCC数据集的特征类型、量表、取值范围、均值/众数及缺失数据占比进行了详细阐述。相关研究:Santos等提出一种新型基于聚类的过采样方法以提升肝细胞癌患者生存预测性能,发表于《生物医学信息学杂志》,2015年,第58卷,第49-59页。 ### 属性信息 1. 性别:名义变量 2. 症状:名义变量 3. 饮酒情况:名义变量 4. 乙型肝炎表面抗原:名义变量 5. 乙型肝炎e抗原:名义变量 6. 乙型肝炎核心抗体:名义变量 7. 丙型肝炎病毒抗体:名义变量 8. 肝硬化:名义变量 9. 肝病流行地区旅居史:名义变量 10. 吸烟情况:名义变量 11. 糖尿病史:名义变量 12. 肥胖史:名义变量 13. 血色病:名义变量 14. 动脉高血压:名义变量 15. 慢性肾功能不全:名义变量 16. 人类免疫缺陷病毒(HIV)感染史:名义变量 17. 非酒精性脂肪性肝炎:名义变量 18. 食管静脉曲张:名义变量 19. 脾大:名义变量 20. 门静脉高压:名义变量 21. 门静脉血栓形成:名义变量 22. 肝转移:名义变量 23. 影像学特征标志:名义变量 24. 确诊年龄:整数型变量 25. 每日饮酒量(克):连续型变量 26. 每年吸烟包数:连续型变量 27. 体力状况评分:有序分类变量 28. 肝性脑病分期:有序分类变量 29. 腹水分度:有序分类变量 30. 国际标准化比值(INR):连续型变量 31. 甲胎蛋白(ng/mL):连续型变量 32. 血红蛋白(g/dL):连续型变量 33. 平均红细胞体积(fl):连续型变量 34. 白细胞计数(G/L):连续型变量 35. 血小板计数(G/L):连续型变量 36. 白蛋白(mg/dL):连续型变量 37. 总胆红素(mg/dL):连续型变量 38. 丙氨酸氨基转移酶(U/L):连续型变量 39. 天冬氨酸氨基转移酶(U/L):连续型变量 40. γ-谷氨酰转移酶(U/L):连续型变量 41. 碱性磷酸酶(U/L):连续型变量 42. 总蛋白(g/dL):连续型变量 43. 肌酐(mg/dL):连续型变量 44. 肿瘤结节数量:整数型变量 45. 结节最大直径(cm):连续型变量 46. 直接胆红素(mg/dL):连续型变量 47. 血清铁(mcg/dL):连续型变量 48. 血氧饱和度(%):连续型变量 49. 铁蛋白(ng/mL):连续型变量 50. 分类标签:名义变量(1代表患者存活,0代表患者死亡) ### 相关文献 Miriam Seoane Santos、Pedro Henriques Abreu、Pedro J Garcia-Laencina、Adelia Simao、Armando Carvalho. 一种用于提升肝细胞癌患者生存预测性能的新型基于聚类的过采样方法. 《生物医学信息学杂志》,2015年,第58卷,第49-59页。 ### 引用要求 Miriam Seoane Santos、Pedro Henriques Abreu、Pedro J Garcia-Laencina、Adelia Simao、Armando Carvalho. 一种用于提升肝细胞癌患者生存预测性能的新型基于聚类的过采样方法. 《生物医学信息学杂志》,2015年,第58卷,第49-59页。 ### 数据集提供者 1. Miriam Seoane Santos,科英布拉大学科学与技术学院信息工程系(邮箱:miriams '@' student.dei.uc.pt) 2. Pedro Henriques Abreu,科英布拉大学科学与技术学院信息工程系(邮箱:pha '@' dei.uc.pt) 3. Armando Carvalho,科英布拉大学附属医院内科(邮箱:aspcarvalho '@' gmail.com) 4. Adélia Simão,科英布拉大学附属医院内科(邮箱:adeliasimao '@' gmail.com)
提供机构:
帕依提提
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个包含165名肝癌患者临床记录的异构数据集,涵盖49个根据EASL-EORTC指南选择的特征,用于研究患者1年生存率预测。数据集包含定量和定性变量,存在10.22%的缺失值和类别不平衡问题。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务