cancer-risk-factors-data

github2025-10-07 更新2025-10-08 收录

下载链接：

https://github.com/tarekmasryo/cancer-risk-factors-data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个干净且结构良好的癌症风险因素数据集，包含2000行21列数据，无缺失值。数据集记录了患者在生活方式、环境和遗传方面的癌症风险指标，适用于数据科学教育、探索性分析和机器学习分类任务。

This is a clean and well-structured cancer risk factor dataset, containing 2000 rows and 21 columns with no missing values. The dataset records cancer risk indicators related to patients' lifestyles, environments and genetics, and is suitable for data science education, exploratory data analysis and machine learning classification tasks.

创建时间：

2025-10-07

原始信息汇总

癌症风险因素数据集概述

数据集基本信息

数据集名称：癌症风险因素数据集
作者：Tarek Masryo
数据规模：2,000行 × 21列
缺失值：无缺失值
许可证：
- 数据集文件（cancer-risk-factors.csv）：CC BY 4.0
- 代码和脚本：MIT License

数据集内容描述

该数据集提供了患者层面主要癌症风险因素的清洁且结构良好的视图。每条记录代表一个个体，通过生活方式、环境和遗传指标来描述与癌症发展相关的特征。

数据字段说明

标识字段

Patient_ID：唯一患者标识符（字符串类型）

目标字段

Cancer_Type：癌症类别（分类变量）
Risk_Level：风险等级分类（低/中/高）

人口统计学字段

Age：年龄（整数类型）
Gender：编码性别（0=女性，1=男性）

生活方式风险因素

Smoking：吸烟风险指标（0-10分制）
Alcohol_Use：饮酒风险指标（0-10分制）
Obesity：肥胖风险指标（0-10分制）
Physical_Activity：身体活动指标（0-10分制）
Physical_Activity_Level：活动水平指标（0-10分制）

饮食营养因素

Diet_Red_Meat：红肉摄入风险（0-10分制）
Diet_Salted_Processed：腌制加工食品摄入风险（0-10分制）
Fruit_Veg_Intake：水果蔬菜摄入量（0-10分制）
Calcium_Intake：钙摄入量（0-10分制）

环境与职业因素

Air_Pollution：空气污染暴露（0-10分制）
Occupational_Hazards：职业危害暴露（0-10分制）

医疗与遗传因素

Family_History：家族癌症史（0/1）
BRCA_Mutation：BRCA基因突变（0/1）
H_Pylori_Infection：幽门螺杆菌感染（0/1）

衍生特征

BMI：身体质量指数（浮点类型）
Overall_Risk_Score：综合风险评分[0-1]（浮点类型）

数据集特点

无缺失值或重复值
涵盖五种癌症类型的平衡表示：乳腺癌、肺癌、结肠癌、皮肤癌和前列腺癌
变量采用0-10风险强度系统进行标准化
Overall_Risk_Score和Risk_Level为衍生特征

适用场景

数据科学、探索性数据分析和机器学习流程的教育用途
分类算法测试（如预测癌症类型或风险等级）
数据清洗、特征重要性和泄漏检测的演示

搜集汇总

数据集介绍

构建方式

在癌症流行病学研究领域，该数据集通过整合多维度临床指标构建而成，涵盖2000例患者样本的21项标准化特征。数据采集采用结构化编码体系，将生活方式、环境暴露与遗传标记统一量化为0-10级风险强度值，并通过算法合成总体风险评分。所有字段均经过完整性校验，确保零缺失值与重复记录，形成可供机器学习直接使用的洁净矩阵。

特点

本数据集显著特征体现在其多维风险因子的系统化组织，既包含吸烟指数、膳食结构等行为指标，又整合BRCA基因突变等生物标记。数据采用分类均衡设计，在乳腺癌、肺癌等五种常见癌种间保持均匀分布。各数值型变量均经过标准化处理，衍生字段如风险等级标签为预测任务提供多粒度监督信号，整体架构兼顾临床可解释性与算法适配性。

使用方法

研究人员可通过Git仓库获取数据集后，依托配套的Jupyter案例快速开展探索性分析。在建模应用中需注意排除衍生特征以避免标签泄漏，建议将分类目标设为癌症类型或风险等级预测。该数据集特别适合用于特征重要性排序、数据清洗流程演示等教学场景，其规整的数据结构可直接嵌入主流机器学习框架进行模型训练与验证。

背景与挑战

背景概述

癌症风险因素数据集由Tarek Masryo于当代公共卫生数据科学领域构建，聚焦于多维度癌症风险因素的量化分析。该数据集整合了生活方式、环境暴露与遗传标记三大类指标，通过21个特征维度系统刻画个体癌症风险图谱。其核心研究目标在于建立可解释的癌症风险预测模型，为流行病学研究和临床预防策略提供数据支撑，显著推动了健康信息学领域从传统统计分析向机器学习驱动的精准预防范式转型。

当前挑战

在癌症风险预测领域，该数据集需解决多源异构特征交互建模的复杂性，例如基因与环境因子的非线性关联。构建过程中面临医学伦理约束下的数据标准化难题，包括不同医疗机构记录规范的统一化处理。同时需平衡模拟数据与真实临床场景的差异，确保吸烟指数、遗传标记等敏感变量的临床有效性，避免因特征工程引入的预测偏差。

常用场景

经典使用场景

在癌症流行病学研究中，该数据集常被用于探索多维度风险因素与特定癌症类型之间的关联模式。研究人员通过整合生活方式、环境暴露和遗传标记等21个特征变量，构建分类模型以预测个体患癌风险等级或癌症类别，为疾病机制分析提供数据支撑。

解决学术问题

该数据集有效解决了传统医学研究中难以量化多重风险因子交互作用的难题。通过提供标准化评估指标和完整特征矩阵，支持机器学习算法识别关键致病因素，显著提升了癌症风险预测模型的解释性与泛化能力，推动了精准预防医学的发展。

衍生相关工作

基于该数据集衍生的经典研究包括多中心癌症风险预测框架的构建，其中融合梯度提升树与SHAP解释性分析的方法已成为行业基准。后续工作进一步拓展至跨种群风险迁移学习模型，以及结合基因组学数据的三维风险图谱绘制。

以上内容由遇见数据集搜集并总结生成