gym-members-eda

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/shakedmanor/gym-members-eda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“健身房会员运动跟踪”，包含1,800名会员的生理和锻炼记录，共有15个特征，包括年龄、体重、心率、锻炼类型等。数据集的主要目的是通过探索性数据分析（EDA）找出影响锻炼期间卡路里消耗的关键因素，目标变量为“Calories_Burned”。数据集最初包含1,800条记录，但经过数据验证和清洗后，保留了1,000多条逻辑一致的记录。数据验证过程中发现了数据集的高度合成性质，包括BMI计算不一致和心率序列逻辑错误等问题。清洗步骤包括处理缺失值、标准化字符串、删除无效特征（如BMI）以及过滤不符合生物逻辑的记录。最终的数据集适用于研究运动生理学、卡路里消耗预测等任务。

创建时间：

2026-04-09

搜集汇总

数据集介绍

构建方式

该数据集源自Kaggle平台的“健身房会员运动追踪”原始数据，包含1800名会员的生理指标与锻炼记录。在构建过程中，研究者对原始数据进行了严格的数据清洗与验证，包括修正数据类型、处理缺失值、剔除不符合生物逻辑的异常记录，并重新计算了身体质量指数等衍生特征。经过一系列完整性检查与边界验证，最终形成了包含1301条记录、19个特征列的洁净数据集，为后续探索性分析奠定了坚实基础。

特点

该数据集涵盖了年龄、体重、心率、运动时长与类型等多维度生理与行为特征，旨在探究热量消耗的影响因素。然而，深入分析揭示其存在显著合成缺陷：热量消耗数据与生理指标间缺乏统计相关性，且性别间的生理差异未被真实体现，形成“均匀云”分布。与科学能量消耗公式对比，数据集呈现约27%的系统性偏差，表明其生成过程脱离了真实代谢规律，因而在机器学习建模中需谨慎使用。

使用方法

该数据集适用于数据科学教学与探索性分析实践，可用于演示数据清洗、特征工程与统计验证等关键流程。研究者可基于其开展相关性分析、可视化探索，并对照Keytel公式等科学基准检验数据真实性。鉴于其合成性质，不建议直接用于构建预测模型，但可作为案例研究，帮助识别数据生成中的逻辑缺陷与生物不合理性，提升数据质量评估能力。

背景与挑战

背景概述

在健康监测与运动科学领域，数据驱动的分析对于理解个体生理响应与能量消耗模式至关重要。Gym Members Exercise Tracking数据集由Kaggle平台提供，收录了1800名健身房会员的生理指标与运动记录，涵盖年龄、体重、心率及多种运动类型等特征。该数据集旨在探究影响卡路里消耗的关键因素，如心率、运动时长或身体质量指数（BMI），从而为个性化健身方案与健康管理提供依据。然而，初步分析揭示其存在显著的数据完整性问题，引发了对其科学可靠性的深入审视。

当前挑战

该数据集核心挑战在于其合成性质与真实生理逻辑的脱节。首先，在解决运动能量消耗预测这一领域问题时，数据呈现目标变量“卡路里消耗”与生理特征间零相关性，违背了人体代谢的基本规律，导致无法构建有效的机器学习模型。其次，在构建过程中，数据生成暴露出多重缺陷：BMI值在99%的记录中存在计算矛盾；心率序列出现逻辑倒置；特征如身高体重缺乏性别差异，呈现独立随机分布。这些合成瑕疵使得数据集虽具表面合理性，却无法反映真实生物机制，严重限制了其在科学研究与实际应用中的价值。

常用场景

解决学术问题

该数据集主要解决了数据科学教育中关于数据完整性验证的学术问题。通过系统性地暴露合成数据在生理逻辑上的不一致性，如BMI计算错误与心率序列矛盾，它强调了数据预处理阶段进行生物合理性检验的必要性。其意义在于为学术界提供了一个反面案例，警示研究者避免使用脱离现实规律的数据进行建模，从而推动更严谨的数据驱动研究范式。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于Keytel公式的能量消耗科学基准研究，该研究通过对比合成数据与生理学模型，量化了数据偏差的幅度。此外，相关分析还催生了关于特征独立性检验的方法讨论，如利用“均匀云”可视化揭示随机生成特征的模式。这些工作共同深化了数据合成领域对生物可解释性与真实性的评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集