Samsung Galaxy Human Activity Dataset
收藏github2014-05-31 更新2024-05-31 收录
下载链接:
https://github.com/sudheerb82/CleaningData_TidyDataSet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用三星Galaxy可穿戴设备进行的不同人类活动的数据,数据和描述格式参考了UCI机器学习库中的使用智能手机的人类活动识别数据集。数据集用于分析人类活动,特别是关注于平均值和标准偏差值的活动。
This dataset contains data of various human activities collected using Samsung Galaxy wearable devices. The data format and descriptive schema of this dataset are based on the Human Activity Recognition Using Smartphones dataset from the UCI Machine Learning Repository. This dataset is designed for human activity analysis, with a particular focus on the mean and standard deviation values of the target activities.
创建时间:
2014-05-25
原始信息汇总
数据集概述
数据集名称
三星Galaxy人体活动数据集
数据集内容
- README.md: 描述了数据集的假设、前提条件和详细分析过程。
- CodeBook.md: 描述了从原始数据集生成的整洁数据集的代码书。
- run_analysis.R: R脚本,用于从原始数据集生成整洁数据集。
数据集处理步骤
- 加载所有特征和活动标签,适用于训练和测试数据集。
- 对于每个测试和训练数据集,执行以下操作:
- 加载所有特征数据,并与先前加载的特征列关联。
- 加载与特定观察相关联的SubjectId,并与特征数据集关联。
- 使用提供的活动标签适当地命名活动。
- 将训练和测试数据集合并为一个大型数据集。
- 仅关注每个活动的平均值和标准偏差值,因此仅筛选包含这些值的列,忽略数据集中的其他列。
- 对筛选出的列进行更描述性和统一的命名:
- 所有列名改为小写。
- 从列名中删除"-"、"("、")"字符。
- 例如,原始列名"tBodyAcc-mean()-X"将改为"tbodyaccmeanx"。
- 对于每个特征,计算每个受试者和活动的平均值。由于有6种活动和30个受试者,因此将为每个筛选的特征生成180(6 * 30)个子组。
数据集前提条件
- 已下载、解压缩并存储在当前工作目录中,文件夹名为"UCI HAR Dataset"。
- 使用R编程语言创建整洁数据集并进行分析,已安装并加载reshape2库。
数据集假设
- 使用三星Galaxy可穿戴设备进行了各种人体活动。
- 数据和描述格式与2014年5月25日http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones中记录的格式相同。
搜集汇总
数据集介绍

构建方式
Samsung Galaxy Human Activity Dataset的构建采取了对Samsung Galaxy可穿戴设备中捕获的各种人体活动数据的综合分析。数据预处理包括独立加载特征和活动标签,并将SubjectId与特定观测关联,进而整合训练和测试数据集,并专注于计算每个活动的均值和标准差,最终生成整洁的数据集,以便于进一步分析。
特点
该数据集的特点在于它从Samsung Galaxy智能设备中收集了人体活动数据,具有高度的现实性和多样性。数据集经过精心清洗和整理,所有列名均采用小写,并去除了非字母字符,提高了数据集的可读性和易用性。此外,数据集通过计算每个受试者在六项活动中的平均值和标准差,形成了具有180个子组的详细数据结构。
使用方法
使用该数据集时,用户需先下载、解压并将数据存储在当前工作目录下,指定文件夹名为“UCI HAR Dataset”。在R编程语言环境下,通过加载reshape2库,并执行提供的R脚本(run_analysis.R),用户可以对原始数据集进行处理,生成整洁的数据集,进而进行详细的数据分析。
背景与挑战
背景概述
Samsung Galaxy Human Activity Dataset,简称SGHAD,是由韩国三星公司提供,并与加州大学欧文分校(UCI)机器学习库合作构建的一组人类活动识别数据集。该数据集的创建旨在推动可穿戴设备在人类日常活动识别领域的研究与应用,其数据收集始于2014年5月25日之前。数据集主要关注六种常见的人类活动,通过三星Galaxy系列智能手表记录用户的加速度、陀螺仪和磁力计等传感器的数据。SGHAD在学术界引起了广泛关注,为相关领域的研究人员提供了一个宝贵的资源,极大地推动了人类行为识别技术的发展。
当前挑战
尽管SGHAD数据集为研究领域提供了丰富的资源,但在使用该数据集时仍面临一些挑战。首先,数据集在领域问题解决方面的挑战包括如何提高活动识别的准确率和实时性,特别是在复杂环境下对用户行为的准确分类。其次,在构建数据集过程中遇到的挑战涉及数据预处理、特征提取和降维等问题。例如,数据清洗和标准化是必要的步骤,以确保分析的质量和一致性;同时,数据集的多样性可能会引入噪声,需要有效的特征选择和模型选择策略来克服。
常用场景
经典使用场景
在人类行为识别的研究领域,Samsung Galaxy Human Activity Dataset数据集被广泛用于训练机器学习模型,以识别用户执行的各种日常活动,如走路、跑步、坐下等。该数据集提供了利用三星银河穿戴设备收集的活动数据,其经典使用场景在于对原始时间序列数据进行预处理,提取统计特征,进而通过分类算法对活动类型进行预测。
实际应用
在实际应用中,Samsung Galaxy Human Activity Dataset数据集的应用场景广泛,如健康监测、智能家居控制、人机交互等领域。基于该数据集开发的模型能够辅助设备理解用户的日常活动模式,从而为用户提供更加智能和个性化的服务。
衍生相关工作
基于Samsung Galaxy Human Activity Dataset的研究衍生出了一系列相关工作,包括改进数据预处理方法、探索新的特征提取技术、开发更为精确的活动识别模型等。这些工作不仅扩展了数据集的利用范围,也为人类行为识别领域带来了新的理论进展和技术突破。
以上内容由遇见数据集搜集并总结生成



