Daily and Sports Activities
收藏github2022-12-02 更新2024-05-31 收录
下载链接:
https://github.com/greed2411/sports_activities_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来自UCI机器学习仓库,包含了日常体育活动的数据。数据集通过多种传感器收集,包括身体不同部位的运动数据,并经过复杂的预处理步骤,如特征提取和归一化,用于机器学习模型的训练和测试。
This dataset originates from the UCI Machine Learning Repository and encompasses data related to daily physical activities. It was collected using various sensors that capture movement data from different parts of the body. The dataset has undergone sophisticated preprocessing steps, such as feature extraction and normalization, to facilitate the training and testing of machine learning models.
创建时间:
2018-01-15
原始信息汇总
数据集概述
数据集名称
- 名称: sports_activities_dataset
- 来源: UCI ML repository
- 链接: Daily and Sports Activities
数据集文件
- 主要文件: csir_cdri_test.ipynb
- 辅助文件: prediction-pca.ipynb, pytorch-model.ipynb
数据预处理
- 输入: 5秒窗口的病人活动数据,包含125个观测值,每个观测值有45个特征。
- 处理步骤:
- 第一步骤: 225个特征,包括9个传感器轴的5个单位的最小值、最大值、平均值、偏度和峰度。
- 第二步骤: 225个特征,表示9个传感器轴的5个单位的DFT最大5峰值。
- 第三步骤: 225个特征,表示与第二步骤中峰值对应的频率。
- 第四步骤: 495个特征,表示时间序列的11个自选自相关值。
- 输出: 1170个特征,每个特征文件经过归一化处理,范围为[0,1],并附带病人ID和活动ID。
数据集应用
- 模型测试: 包括两个部分,一个使用9120 x 1170矩阵,另一个使用9120 x 30矩阵。
- PCA应用: 对初始矩阵进行PCA处理,但未达到预期效果。
模型性能
实际数据集 (9120 x 1172)
- 活动预测:
- 最佳模型: Gradient Boosting Classifier, 准确率: 0.9368
- 其他模型: Bagging Classifier, Random Forest Classifier, ExtraTrees Classifier, Decision Tree
- 病人与活动预测:
- 最佳模型: Bagging Classifier, 准确率: 0.8245
- 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree, kNN (k=3)
PCA数据集 (9120 x 32)
- 活动预测:
- 最佳模型: ExtraTrees Classifier, 准确率: 0.8767
- 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Bagging Classifier, Neural Networks (DNN)
- 神经网络 (PyTorch):
- 最佳模型: With Adam Optimizer, 准确率: 0.8951
- 其他模型: With Adam Optimizer + Karpathy constant, With RMSProp optimizer, With SGD Optimizer
- 神经网络 (scikit-learn):
- 最佳模型: MLP with Adam + ReLU, 准确率: 0.8065
- 其他模型: MLP with Adam + Sigmoid
额外任务 (PyTorch on PCA dataset)
- 模型: With RMSProp optimizer, 准确率: 0.5043
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对人体日常和体育活动的监测,通过在人体不同部位(如躯干、左右手、左右腿)安装微型惯性和磁性传感器,采集5秒窗口内的活动数据。原始数据包含125个观测值和45个特征,这些特征来源于9个传感器轴的测量。随后,数据经过预处理,提取了1170个手工设计的特征,包括各轴的最小值、最大值、均值、偏度、峰度、DFT峰值及其频率、自相关值等。这些特征经过归一化处理后,与患者ID和活动ID一同存储,最终形成了一个9120 x 1172的矩阵数据集。
使用方法
使用该数据集时,用户可以选择直接利用原始的9120 x 1172矩阵进行模型训练,或者使用经过PCA降维后的9120 x 32矩阵以简化模型复杂度。数据集提供了多个Jupyter Notebook文件,展示了如何进行数据预处理、特征提取、模型训练和评估。用户可以参考这些示例代码,快速上手并进行自定义的机器学习实验。此外,数据集还提供了多种机器学习模型的性能评估结果,为用户选择合适的模型提供了参考。
背景与挑战
背景概述
Daily and Sports Activities数据集源自UCI机器学习库,由K. Altun、B. Barshan和O. Tunçel于2010年创建。该数据集的核心研究问题是通过微型惯性和磁性传感器对人类日常和体育活动进行分类。研究团队通过在人体不同部位(如躯干、左右手、左右腿)安装传感器,收集了5秒窗口内的活动数据,并将其转换为1170个特征,以捕捉活动的动态变化。这一数据集在运动分析和行为识别领域具有重要影响力,为后续研究提供了丰富的数据资源。
当前挑战
Daily and Sports Activities数据集在构建过程中面临多重挑战。首先,数据预处理复杂,需将原始的125x45矩阵转换为1170x1矩阵,涉及多种统计和频域特征的提取。其次,数据集在分类任务中表现出较高的维度,尽管通过PCA降维,但仍需优化模型以提高分类精度。此外,不同模型在预测活动和患者身份时的表现差异显著,表明模型选择和超参数调优是关键挑战。最后,神经网络在处理该数据集时,优化器的选择对性能影响巨大,需进一步探索以提升预测准确性。
常用场景
经典使用场景
Daily and Sports Activities数据集的经典使用场景主要集中在人体运动行为的分类与识别。通过分析佩戴在身体不同部位的传感器数据,该数据集能够有效区分24种日常和体育活动,如步行、跑步、骑自行车等。这种分类任务不仅有助于理解人体运动的动态特征,还为开发智能健康监测系统提供了基础数据支持。
解决学术问题
该数据集解决了人体运动行为分类这一常见的学术研究问题。通过提供多维度的传感器数据,它帮助研究人员探索和验证各种机器学习模型在复杂运动模式识别中的性能。这不仅推动了模式识别和机器学习领域的发展,还为个性化健康管理和运动康复提供了科学依据。
实际应用
在实际应用中,Daily and Sports Activities数据集被广泛用于开发智能穿戴设备和健康监测系统。例如,它可以用于设计能够自动识别用户运动状态的可穿戴设备,从而提供实时的健康建议和运动指导。此外,该数据集还可应用于体育训练和康复领域,帮助运动员和患者进行科学的运动管理和康复训练。
数据集最近研究
最新研究方向
在日常与体育活动数据集领域,最新的研究方向主要集中在利用先进的机器学习技术,如深度神经网络(DNN)和梯度提升分类器,来提高活动识别的准确性。研究者们通过预处理技术,如主成分分析(PCA),对原始数据进行降维处理,以优化模型的性能。此外,研究还涉及多模态数据的融合,通过结合不同传感器的数据,如惯性和磁力传感器,来增强模型的鲁棒性和识别能力。这些研究不仅推动了活动识别技术的发展,也为健康监测和运动科学提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



