calories_prediction1

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/uleeberber/calories_prediction1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自Kaggle的“生活方式数据”，包含了20,000名个体的详细个人、营养和健身相关数据，共有54个特征。数据集包括健康参数（如年龄、体重、BMI）、运动变量（如BPM、持续时间、活动类型）和营养信息（如宏量营养素分解和膳食分类）。此外，还包含多个衍生指标，用于估算卡路里平衡、瘦体重和锻炼效果。数值目标变量为卡路里消耗。预测变量包括生理因素（年龄、性别、体重、身高、脂肪百分比、BMI、静息BPM）、运动因素（运动持续时间、平均BPM、最大BPM、运动类型、经验水平、运动频率）和生活方式因素（水摄入量、饮食类型）。该数据集的目标是通过机器学习模型预测用户在给定其个人资料、运动详情和生活方式习惯下的能量消耗（卡路里消耗）。

创建时间：

2025-12-07

原始信息汇总

数据集概述：uleeberber/calories_prediction1

数据集来源与内容

来源：该数据集源自Kaggle的"Life Style Data"。
规模：包含20,000个个体的详细数据，共计54个特征。
目标变量：数值型变量calories_burned（消耗的卡路里）。
预测变量：
- 生理特征：年龄、性别、体重（kg）、身高（m）、脂肪百分比、BMI、静息心率。
- 锻炼特征：锻炼时长（小时）、平均心率、最大心率、锻炼类型、经验水平、锻炼频率（天/周）。
- 生活方式特征：饮水量（升）、饮食类型。

项目目标

回归任务：预测Calories_Burned的具体数值。
分类任务：将锻炼强度分类为低、中、高。

探索性数据分析（EDA）关键发现

数据质量：无缺失值或重复值。
描述性统计：
- 平均锻炼时长约为1.26小时（标准差≈0.34）。
- 平均每次锻炼消耗约1280千卡（标准差≈500）。
- 锻炼频率集中在每周3-4天。
- BMI范围约为12至50，多数用户约为25。
目标分布：Calories_Burned呈钟形（正态）分布，中心约1280千卡。
关键关系：
- 锻炼时长与卡路里消耗：存在极强的正线性关系（相关系数𝑟=0.81），是主要预测因子。
- 锻炼类型与卡路里消耗：高强度间歇训练（HIIT）和力量训练的消耗中位数和方差较高。
- 心率指标与卡路里消耗：未发现明确关系。
- 锻炼频率与卡路里消耗：存在正相关（𝑟≈0.58），是次要预测因子。
- 生理特征与卡路里消耗：未发现明显趋势，预测能力弱。
- 饮食类型与卡路里消耗：无明显相关性。
EDA结论：
- 主要预测因子：Session_Duration。
- 次要预测因子：Workout_Frequency、Workout_Type、Experience_Level。
- 无关变量：Diet_Type。

基线模型（线性回归）

特征处理：对分类变量进行独热编码，对数值特征进行标准化。
性能指标：
- R²分数：0.9669。
- 平均绝对误差（MAE）：60.58。
- 均方根误差（RMSE）：90.91。
残差分析：显示轻微“扇形”模式，表明存在非线性关系。
特征重要性：Workout_Type_HIIT和Session_Duration是主要正向驱动因素；Workout_Type_Yoga是主要负向驱动因素。

特征工程

新增6个特征以捕捉非线性关系和交互作用：

Heart_Range：心血管强度范围。
Intensity_Volume：锻炼总负荷。
Session_Duration_sq：锻炼时长的平方项。
Weight_Duration：体重与锻炼时长的交互。
BMI_Duration：BMI与锻炼时长的交互。
Fitness_Maturity：年龄与经验水平的交互。

聚类分析

方法：对生理特征使用K-Means聚类，最优聚类数k=4。
聚类解释：
- 聚类0：最高体重和最高BMI。
- 聚类1：最低体重和最低BMI（最瘦用户）。
- 聚类2：身高较矮、体重平均的用户。
- 聚类3：身高较高、体重较重但BMI健康的用户（可能肌肉更多）。
新增特征：
- Physique_Cluster：体质聚类类别（独热编码）。
- Physique_Dist：到聚类质心的距离。

改进模型训练与评估

使用完整工程化特征集训练并比较三个模型：

改进的线性回归：作为更新基准。
梯度提升回归器：顺序构建树以最小误差。
随机森林回归器：平均多个决策树的预测以减少过拟合。

性能比较

获胜模型：随机森林回归器：
- 最低MAE：5.66。
- 最高R²：0.999977。
- 最低RMSE：2.37。
特征重要性：Session_Duration及其平方项是最强预测因子；Workout_Type（特别是瑜伽和HIIT）影响重大；Fitness_Maturity影响力显著。

回归转分类任务

分类定义：使用分位数分箱将Calories_Burned转换为三个类别：
- 低消耗（类别0）：≤ 1008千卡。
- 中消耗（类别1）：1008–1421.98千卡。
- 高消耗（类别2）：> 1421.98千卡。
类别平衡：训练集和测试集中各类别比例均约33%，无需重新平衡。
评估重点：精确度优先于召回率，以减少高消耗类别的误报（更危险）。

分类模型训练与评估

训练并比较三个分类模型：

逻辑回归：准确率99.08%。
随机森林分类器：准确率99.88%。
支持向量机（SVM）：准确率97.88%。

获胜模型

随机森林分类器：
- 最高准确率（99.88%）。
- 几乎零误分类。
- 对高消耗类别具有完美精确度。
- 能捕捉工程化特征和聚类的非线性模式。

模型文件

获胜回归模型：https://huggingface.co/uleeberber/models_assignment_2/resolve/main/the_winning_regression_pipeline.pkl
获胜分类模型：https://huggingface.co/uleeberber/models_assignment_2/resolve/main/the_winning_classification_pipeline.pkl

搜集汇总

数据集介绍

构建方式

在运动生理学与健康数据分析领域，calories_prediction1数据集通过整合多维度个体信息，系统性地构建了一个用于预测运动能量消耗的综合性资源。该数据集源自Kaggle平台的“Life Style Data”，涵盖了20,000名个体的详细生理统计、运动强度及生活习惯数据，共包含54个特征。数据采集过程注重完整性，未出现缺失值或重复记录，确保了建模的稳健性。特征维度涵盖生理参数（如年龄、体重、BMI）、运动变量（如心率、持续时间、活动类型）以及营养信息（如宏量营养素构成与饮食分类），并衍生出卡路里平衡、瘦体重及运动效果等估算指标，为目标变量“卡路里消耗”提供了全面的预测基础。

使用方法

该数据集适用于回归与分类双重机器学习任务。在回归任务中，目标为精确预测卡路里消耗数值，可通过特征工程引入非线性交互项（如强度体积、体重持续时间等）以捕捉复杂关系，并采用聚类方法将用户按生理特征分组，以识别代谢模式。预处理流程包括独热编码分类变量、标准化数值特征及训练测试分割，确保模型泛化能力。在分类任务中，目标转换为将运动强度划分为低、中、高消耗三类，通过分位数分箱实现类别平衡。推荐使用树系集成模型如随机森林，其能够有效利用工程化特征与聚类结构，在回归任务中达成近乎完美的预测精度（R²≈0.999977），在分类任务中实现极高准确率（99.88%）与关键类别的高精确度，避免有害的误分类。训练完成的模型管道可通过序列化文件直接部署于实际健康应用中。

背景与挑战

背景概述

在运动科学与健康信息学领域，精准量化能量消耗是优化训练方案与健康管理的核心课题。Calories_prediction1数据集源于Kaggle平台的“生活方式数据”，收录了20,000名个体的生理指标、运动参数与生活习惯等54维特征，旨在通过机器学习模型预测单次训练的能量消耗值。该数据集由数据科学研究者构建，聚焦于探索生理统计、运动强度与生活习惯对热量消耗的联合影响机制，为个性化健身指导与能量平衡模型提供了重要的实证基础。其多维度特征架构不仅支持回归任务中的精确热量预测，亦能通过分类框架识别训练强度等级，推动了运动分析领域从描述性统计向预测性建模的范式转变。

当前挑战

该数据集面临的挑战主要体现在问题定义与数据构建两个层面。在领域问题层面，能量消耗预测需克服生理代谢非线性、运动类型异质性以及个体差异显著等复杂因素，传统线性模型难以捕捉多特征交互效应，而数据中运动时长与热量消耗的强相关性可能掩盖其他潜在预测因子的贡献。在构建过程中，数据采集需协调生理参数、实时运动监测与生活习惯记录的多源异构信息，确保特征间的时序一致性与测量准确性；同时，数据中存在的极端值虽反映真实高强度训练场景，但给模型稳健性带来考验，且心率指标与能量消耗缺乏显性关联这一反直觉现象，提示了传感器数据与生理理论间可能存在校准偏差或测量局限。

常用场景

经典使用场景

在运动科学与健康信息学领域，calories_prediction1数据集为能量消耗预测提供了关键基准。该数据集最经典的使用场景在于构建机器学习模型，以精准估算个体在特定锻炼中的卡路里消耗。通过整合生理统计、运动强度及生活习惯等多维度特征，研究者能够训练回归模型直接预测卡路里数值，或开发分类模型将锻炼强度划分为低、中、高三个等级。这一过程不仅验证了运动时长与卡路里消耗之间的强线性关系，还揭示了不同运动类型对能量支出的差异化影响，为后续模型优化奠定了实证基础。

解决学术问题

该数据集有效解决了运动能量代谢建模中的若干核心学术问题。传统能量消耗估算常依赖简化的公式或有限参数，而本数据集通过涵盖年龄、体重、BMI、心率、运动时长及类型等54个特征，支持了多变量非线性关系的探索。研究证实，运动时长是卡路里消耗的主导预测因子，而生理特征如体重与BMI的关联性较弱，这挑战了仅依靠身体成分预测能量支出的传统假设。此外，数据集通过特征工程引入了强度体积、健身成熟度等衍生变量，促进了机器学习模型在捕获复杂交互效应方面的进步，推动了精准运动生理学的发展。

实际应用

在实际应用层面，calories_prediction1数据集为健康科技与个性化健身服务提供了重要支撑。基于该数据集训练的模型可集成至智能穿戴设备或移动健康应用中，实时估算用户的运动能量消耗，辅助制定个性化的锻炼计划与营养建议。例如，健身平台可利用分类模型自动识别用户锻炼强度，提供适配的恢复指导；医疗健康机构则可借助回归模型监测慢性病患者的运动干预效果。这些应用不仅提升了健康管理的科学性与便捷性，还通过减少卡路里估算误差，帮助用户更有效地达成体重控制与体能提升目标。

数据集最近研究