five

Daily and Sports Activities|体育活动数据数据集|机器学习数据集

收藏
github2022-12-02 更新2024-05-31 收录
体育活动数据
机器学习
下载链接:
https://github.com/greed2411/sports_activities_dataset
下载链接
链接失效反馈
资源简介:
该数据集来自UCI机器学习仓库,包含了日常体育活动的数据。数据集通过多种传感器收集,包括身体不同部位的运动数据,并经过复杂的预处理步骤,如特征提取和归一化,用于机器学习模型的训练和测试。

This dataset originates from the UCI Machine Learning Repository and encompasses data related to daily physical activities. It was collected using various sensors that capture movement data from different parts of the body. The dataset has undergone sophisticated preprocessing steps, such as feature extraction and normalization, to facilitate the training and testing of machine learning models.
创建时间:
2018-01-15
原始信息汇总

数据集概述

数据集名称

数据集文件

  • 主要文件: csir_cdri_test.ipynb
  • 辅助文件: prediction-pca.ipynb, pytorch-model.ipynb

数据预处理

  • 输入: 5秒窗口的病人活动数据,包含125个观测值,每个观测值有45个特征。
  • 处理步骤:
    • 第一步骤: 225个特征,包括9个传感器轴的5个单位的最小值、最大值、平均值、偏度和峰度。
    • 第二步骤: 225个特征,表示9个传感器轴的5个单位的DFT最大5峰值。
    • 第三步骤: 225个特征,表示与第二步骤中峰值对应的频率。
    • 第四步骤: 495个特征,表示时间序列的11个自选自相关值。
  • 输出: 1170个特征,每个特征文件经过归一化处理,范围为[0,1],并附带病人ID和活动ID。

数据集应用

  • 模型测试: 包括两个部分,一个使用9120 x 1170矩阵,另一个使用9120 x 30矩阵。
  • PCA应用: 对初始矩阵进行PCA处理,但未达到预期效果。

模型性能

实际数据集 (9120 x 1172)

  • 活动预测:
    • 最佳模型: Gradient Boosting Classifier, 准确率: 0.9368
    • 其他模型: Bagging Classifier, Random Forest Classifier, ExtraTrees Classifier, Decision Tree
  • 病人与活动预测:
    • 最佳模型: Bagging Classifier, 准确率: 0.8245
    • 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Decision Tree, kNN (k=3)

PCA数据集 (9120 x 32)

  • 活动预测:
    • 最佳模型: ExtraTrees Classifier, 准确率: 0.8767
    • 其他模型: Gradient Boosting Classifier, Random Forest Classifier, Bagging Classifier, Neural Networks (DNN)
  • 神经网络 (PyTorch):
    • 最佳模型: With Adam Optimizer, 准确率: 0.8951
    • 其他模型: With Adam Optimizer + Karpathy constant, With RMSProp optimizer, With SGD Optimizer
  • 神经网络 (scikit-learn):
    • 最佳模型: MLP with Adam + ReLU, 准确率: 0.8065
    • 其他模型: MLP with Adam + Sigmoid

额外任务 (PyTorch on PCA dataset)

  • 模型: With RMSProp optimizer, 准确率: 0.5043
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对人体日常和体育活动的监测,通过在人体不同部位(如躯干、左右手、左右腿)安装微型惯性和磁性传感器,采集5秒窗口内的活动数据。原始数据包含125个观测值和45个特征,这些特征来源于9个传感器轴的测量。随后,数据经过预处理,提取了1170个手工设计的特征,包括各轴的最小值、最大值、均值、偏度、峰度、DFT峰值及其频率、自相关值等。这些特征经过归一化处理后,与患者ID和活动ID一同存储,最终形成了一个9120 x 1172的矩阵数据集。
使用方法
使用该数据集时,用户可以选择直接利用原始的9120 x 1172矩阵进行模型训练,或者使用经过PCA降维后的9120 x 32矩阵以简化模型复杂度。数据集提供了多个Jupyter Notebook文件,展示了如何进行数据预处理、特征提取、模型训练和评估。用户可以参考这些示例代码,快速上手并进行自定义的机器学习实验。此外,数据集还提供了多种机器学习模型的性能评估结果,为用户选择合适的模型提供了参考。
背景与挑战
背景概述
Daily and Sports Activities数据集源自UCI机器学习库,由K. Altun、B. Barshan和O. Tunçel于2010年创建。该数据集的核心研究问题是通过微型惯性和磁性传感器对人类日常和体育活动进行分类。研究团队通过在人体不同部位(如躯干、左右手、左右腿)安装传感器,收集了5秒窗口内的活动数据,并将其转换为1170个特征,以捕捉活动的动态变化。这一数据集在运动分析和行为识别领域具有重要影响力,为后续研究提供了丰富的数据资源。
当前挑战
Daily and Sports Activities数据集在构建过程中面临多重挑战。首先,数据预处理复杂,需将原始的125x45矩阵转换为1170x1矩阵,涉及多种统计和频域特征的提取。其次,数据集在分类任务中表现出较高的维度,尽管通过PCA降维,但仍需优化模型以提高分类精度。此外,不同模型在预测活动和患者身份时的表现差异显著,表明模型选择和超参数调优是关键挑战。最后,神经网络在处理该数据集时,优化器的选择对性能影响巨大,需进一步探索以提升预测准确性。
常用场景
经典使用场景
Daily and Sports Activities数据集的经典使用场景主要集中在人体运动行为的分类与识别。通过分析佩戴在身体不同部位的传感器数据,该数据集能够有效区分24种日常和体育活动,如步行、跑步、骑自行车等。这种分类任务不仅有助于理解人体运动的动态特征,还为开发智能健康监测系统提供了基础数据支持。
解决学术问题
该数据集解决了人体运动行为分类这一常见的学术研究问题。通过提供多维度的传感器数据,它帮助研究人员探索和验证各种机器学习模型在复杂运动模式识别中的性能。这不仅推动了模式识别和机器学习领域的发展,还为个性化健康管理和运动康复提供了科学依据。
实际应用
在实际应用中,Daily and Sports Activities数据集被广泛用于开发智能穿戴设备和健康监测系统。例如,它可以用于设计能够自动识别用户运动状态的可穿戴设备,从而提供实时的健康建议和运动指导。此外,该数据集还可应用于体育训练和康复领域,帮助运动员和患者进行科学的运动管理和康复训练。
数据集最近研究
最新研究方向
在日常与体育活动数据集领域,最新的研究方向主要集中在利用先进的机器学习技术,如深度神经网络(DNN)和梯度提升分类器,来提高活动识别的准确性。研究者们通过预处理技术,如主成分分析(PCA),对原始数据进行降维处理,以优化模型的性能。此外,研究还涉及多模态数据的融合,通过结合不同传感器的数据,如惯性和磁力传感器,来增强模型的鲁棒性和识别能力。这些研究不仅推动了活动识别技术的发展,也为健康监测和运动科学提供了新的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录