five

sports_activities_dataset

收藏
github2019-01-29 更新2024-05-31 收录
下载链接:
https://github.com/ghayth82/sports_activities_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来自UCI机器学习仓库,包含日常体育活动数据。数据集中的每个输入段是一个5秒的窗口,记录了患者进行某项活动的125次观察(5 x 25Hz),包含45个特征。通过预处理,将这些数据转换为1170个特征,用于表示各种统计和频域特征。

This dataset originates from the UCI Machine Learning Repository and comprises data on daily physical activities. Each input segment in the dataset represents a 5-second window, capturing 125 observations (5 x 25Hz) of a patient engaging in a specific activity, encompassing 45 features. Through preprocessing, these data are transformed into 1170 features, which are utilized to represent various statistical and frequency domain characteristics.
创建时间:
2018-12-18
原始信息汇总

数据集概述

数据集名称

  • sports_activities_dataset

数据集来源

  • 来自UCI ML仓库的日常体育活动数据集。

数据集链接

数据集文件

数据集内容

  • 原始数据:每个输入段为5秒的活动窗口,包含125个观测值(5 x 25Hz)和45个特征。
  • 预处理:将125x45的数据转换为1170x1的手工制作的有意义矩阵。
  • 特征描述
    • 第一步骤:225个特征(每个传感器的9个轴的5个单位的最小值、最大值、平均值、偏度、峰度)。
    • 第二步骤:225个特征(DFT应用于每个传感器的9个轴的5个单位的最高5个峰值)。
    • 第三步骤:225个特征(与第二步骤中的峰值对应的频率)。
    • 第四步骤:495个特征(从125个自相关值中选出的11个值,每个传感器的9个轴的5个单位)。

数据集应用

  • 活动预测:使用信号在实际数据集上预测活动。
  • 患者预测:使用信号和活动在实际数据集上预测患者。

模型性能

  • 实际数据集(9120 x 1172)

    • 活动预测
      • 梯度提升分类器:0.9368
      • 袋装分类器:0.9100
      • 随机森林分类器:0.9017
      • 极端随机树分类器:0.8872
      • 决策树:0.8552
    • 患者预测
      • 袋装分类器:0.8245
      • 梯度提升分类器:0.7921
      • 随机森林分类器:0.7627
      • 决策树:0.7394
      • kNN(k=3):0.6578
  • PCA数据集(9120 x 32)

    • 活动预测
      • 极端随机树分类器:0.8767
      • 梯度提升分类器:0.8745
      • 随机森林分类器:0.8596
    • 神经网络(PyTorch)
      • 使用Adam优化器:0.8951
      • 使用Adam优化器,Karpathy常数:0.8078
      • 使用RMSProp优化器:0.8877
      • 使用SGD优化器:0.8451
    • 神经网络(scikit-learn)
      • MLP使用Adam + ReLU:0.8065
      • MLP使用Adam + Sigmoid:0.7771
  • PyTorch在PCA数据集上的额外任务

    • 使用RMSProp优化器:0.5043
搜集汇总
数据集介绍
main_image_url
构建方式
sports_activities_dataset数据集的构建是基于对患者在日常生活中的体育活动进行监测,采用传感器收集的数据。数据来源于UCI机器学习库,通过在患者身体的不同部位(如躯干、左右手、左右腿)安装的传感器,收集了9轴的加速度和磁力数据。每个数据段代表患者进行某项活动5秒钟内的125个观测值,经过预处理步骤,包括计算最小值、最大值、平均值、偏度和峰度等统计特征,进行离散傅里叶变换(DFT)提取特征,计算自相关值,最终将数据转换为1170维的特征向量,并进行归一化处理。
特点
该数据集的特点在于其多样性、细致性和实用性。它涵盖了不同患者在日常生活中进行多种体育活动的数据,每个活动数据均通过多个传感器从多个维度进行捕捉。此外,数据集经过精心预处理,提取了丰富的特征,包括统计特征、频域特征和自相关特征,为后续的活动识别和患者分类任务提供了良好的数据基础。数据集还包括了基于PCA降维后的版本,方便进行特征维度的压缩和加速模型训练。
使用方法
使用该数据集时,用户可以根据需求选择原始特征集或PCA降维后的特征集。数据集提供了详细的README文件和相关的IPython笔记本,其中包含了数据预处理、模型训练和评估的代码实例。用户可以参考已提供的模型训练代码,利用各种机器学习算法对数据集进行训练,以识别不同的体育活动或对患者进行分类。此外,数据集还支持使用PyTorch框架进行神经网络的训练,提供了相应的代码实例和性能基准,便于用户进行深度学习方法的探索和实验。
背景与挑战
背景概述
sports_activities_dataset 数据集源自于UCI机器学习仓库,是一组日常体育活动数据。该数据集的构建基于K. Altun、B. Barshan和O. Tunçel于2010年在《Pattern Recognition》杂志上发表的研究论文,该论文对使用微型惯性及磁力传感器进行人类活动分类进行了比较研究。数据集涵盖了患者在执行活动时,身体各部位(躯干、左右手、左右腿)的传感器所收集的时间序列数据,旨在为研究人员提供深入理解人类日常体育活动的行为模式及特征分析的基础数据。该数据集自发布以来,在人类行为识别、运动科学以及健康监测等领域产生了广泛的影响。
当前挑战
在研究领域问题上,sports_activities_dataset 数据集面临的主要挑战包括如何精确识别和分类复杂多变的体育活动类型。构建过程中,数据集的挑战体现在对传感器数据的预处理上,包括数据降维、特征提取和归一化等步骤。特别是在特征提取阶段,如何从多维时间序列数据中提取有效的特征向量,以及如何合理运用如PCA等降维技术以优化模型输入,都是研究过程中需要克服的技术难题。此外,在模型选择和优化方面,例如神经网络的参数调优、优化器的选择等,也是提升模型准确率的关键所在。
常用场景
经典使用场景
sports_activities_dataset作为日常运动活动数据集,其经典使用场景在于对人类运动行为进行分类。通过对参与者身体各部位佩戴的微型惯性及磁场传感器所收集的数据进行分析,研究者能够识别出不同的运动类型,如行走、跑步、跳跃等,进而用于运动科学、健康监测以及人机交互等领域。
衍生相关工作
基于该数据集,研究者已经开展了一系列相关工作,如使用不同的机器学习模型进行运动类型和参与者的识别,包括梯度提升分类器、随机森林、神经网络等。这些工作不仅推动了运动识别技术的发展,也促进了相关算法和模型的优化与创新。
数据集最近研究
最新研究方向
sports_activities_dataset数据集在人类日常活动分类研究中占据重要地位。近期研究方向主要集中于利用微型惯性及磁力传感器对人类活动进行分类,如2010年K. Altun等人的研究论文《Comparative study on classifying human activities with miniature inertial and magnetic sensors》所示。当前研究热点包括运用深度学习模型进行特征提取和分类,尤其是基于PyTorch框架的神经网络模型。该数据集的预处理与特征工程对于模型性能有着显著影响,研究不仅关注于活动预测,还包括患者识别等拓展任务。这些研究对于智能健康监测系统的发展具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作