obesity-lifestyle-analysis
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/Tomerd88/obesity-lifestyle-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“肥胖水平与生活方式分析”,旨在研究生活习惯、身体特征和遗传倾向与肥胖水平之间的关系。数据集来源于Kaggle,包含2,111行和17个特征,分为生物遗传特征(如年龄、身高、家族超重史)和行为习惯特征(如体力活动频率、水摄入量、技术使用时间、蔬菜摄入量)。目标变量为“NObeyesdad”,将样本分为7个肥胖等级。数据集经过清洗,无缺失值,并保留了异常值以反映临床显著案例。研究结果表明,遗传背景(家族史)是肥胖最强的预测因子,相关性达0.50,高于身高(0.46)或运动习惯。该数据集适用于健康分类、公共健康评估及肥胖预测研究。
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
在公共卫生与生物医学交叉领域,肥胖研究常需整合多维度个体信息以揭示风险因素。本数据集源自Kaggle平台,经系统化采集与预处理,共包含2,111条样本及17项特征,覆盖生物遗传、行为习惯等多模态数据。构建过程中,研究者首先验证了数据的完整性,确认无缺失值存在,并剔除了重复记录以确保统计纯净性。分类目标变量“NObeyesdad”被映射为0至6的序数尺度,以体现肥胖程度的渐进性;同时,诸如家族史与性别等分类特征均经过二进制编码转换,便于后续量化分析。尤为关键的是,研究团队保留了数据中的异常值,因其代表了临床意义上极端的肥胖案例,从而增强了数据集对真实世界复杂性的表征能力。
使用方法
在应用层面,该数据集主要服务于基于表格数据的分类任务,尤其适合用于肥胖风险预测模型的开发与验证。研究者可借助逻辑回归、决策树或集成学习等算法,以17项特征为输入,预测个体的肥胖等级分类。使用前无需额外清洗,但建议进行特征标准化以优化模型性能。数据集支持多角度的探索性分析,例如通过相关性矩阵辨析遗传与行为因素的影响力差异,或利用分组统计识别特定高危人群。在公共卫生研究中,其结论可用于指导针对性干预策略的设计,强调对具有家族遗传背景的个体实施早期筛查与个性化健康管理。为确保分析严谨性,建议在建模时注意类别不平衡问题,并可考虑采用交叉验证评估模型泛化能力。
背景与挑战
背景概述
肥胖与生活方式分析数据集(Obesity Levels & Lifestyle Analysis)由Reichman大学(IDC Herzliya)的数据科学课程学生Tomer Dariel于近年创建,源自Kaggle平台的预处理多模态健康数据。该数据集旨在探究生活方式习惯、生理特征与遗传倾向在决定肥胖水平中的复杂关联,核心研究问题聚焦于识别生理结构、行为习惯与遗传背景中哪一因素对临床肥胖具有最强预测力。通过包含2,111个样本与17个特征的结构化数据,该研究推动了公共卫生评估从单一行为干预向多模态风险识别的范式转变,为肥胖症的精准预防提供了数据驱动的见解。
当前挑战
该数据集致力于解决肥胖风险分层与预测的领域挑战,即如何在多因素交织的健康数据中辨识主导风险因子,以超越传统上仅关注运动或饮食的简化模型。构建过程中的挑战包括处理分类目标变量(NObeyesdad)向有序尺度的映射,以捕捉肥胖的渐进性本质;同时,在异常值处理上需平衡统计规范与临床意义,极端体重案例作为研究核心被保留,这要求分析方法具备对高显著性病例的鲁棒性。此外,整合遗传、行为与生理等多源异质特征,并验证其预测层次,亦构成了数据建模的关键难点。
常用场景
经典使用场景
在公共卫生与医学研究领域,肥胖问题日益凸显其复杂性,该数据集通过整合多模态特征,为探索生活方式与肥胖水平的关联提供了实证基础。经典应用场景集中于构建预测模型,以区分肥胖的七个临床等级,从而辅助研究者量化遗传、行为与生理因素对体重的相对贡献。这类分析常采用机器学习分类算法,如决策树或逻辑回归,旨在从有限的样本中提取可泛化的规律,为后续干预策略提供数据驱动的见解。
解决学术问题
该数据集有效解决了肥胖研究中长期存在的关键学术问题,即如何厘清遗传背景、生理特征与行为习惯在肥胖成因中的交互作用。通过提供结构化的多维度变量,它使得研究者能够检验“运动主导体重”的直觉假设,并实证揭示遗传因素作为最强预测因子的核心地位。这一发现挑战了传统公共卫生评估中过度强调生活方式的倾向,推动了学术界从单一归因转向系统性的多模态分析框架,为精准医学在肥胖防控中的应用奠定了理论基础。
实际应用
在实际应用层面,该数据集为公共卫生政策制定与个性化健康管理提供了重要参考。医疗机构可利用其构建的风险预测模型,早期识别具有家族肥胖史的高危人群,从而实施针对性干预,如定制营养计划或运动指导。此外,健康科技公司可基于此类数据开发智能监测工具,帮助用户理解自身体重变化的潜在动因,促进从泛化建议到个体化健康管理的范式转变,最终提升慢性病防控的整体效能。
数据集最近研究
最新研究方向
在肥胖与生活方式分析领域,前沿研究正聚焦于多模态数据的整合与遗传因素的深度解析。该数据集揭示了家族史与肥胖水平间高达0.50的相关性,超越了身高(0.46)和体力活动频率的预测力,这促使学界重新审视遗传背景作为肥胖风险核心代理的价值。当前热点事件如精准公共卫生的兴起,正推动研究从传统行为干预转向基因-环境交互作用的个性化评估,旨在通过早期识别高风险人群实现更有效的预防策略。这一方向不仅挑战了运动主导体重的普遍直觉,也为开发基于多源数据的预测模型提供了实证基础,对优化医疗资源分配和制定靶向健康政策具有深远意义。
以上内容由遇见数据集搜集并总结生成



