har_datasets
收藏github2024-01-18 更新2024-05-31 收录
下载链接:
https://github.com/njtwomey/har_datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库旨在提供一个统一接口,用于分析基于加速度计的人类活动识别数据集。其理念是收集多种不同记录条件下的数据集,并将这些数据转换为一致的数据格式,以便更容易地解决特征提取/表示学习、元/迁移学习、主动学习等任务中的开放问题。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和劣势的中心。
This repository aims to provide a unified interface for analyzing human activity recognition datasets based on accelerometers. The concept is to collect datasets under various recording conditions and convert these data into a consistent format, making it easier to address open issues in tasks such as feature extraction/representation learning, meta/transfer learning, and active learning. The ultimate goal is to create a hub that facilitates understanding the stability, strengths, and weaknesses of the latest technologies in the HAR field.
创建时间:
2018-12-12
原始信息汇总
数据集概述
本项目旨在提供一个统一接口,用于穿戴式人体活动识别(HAR)数据集。项目收集了多种录音条件下的数据集,并将其转换为一致的数据格式,以便更轻松地解决特征提取/表示学习、元/迁移学习、主动学习等任务。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和弱点的家园。
数据格式
所有数据集的数据被转换为包含四个关键元素的统一格式:
- 训练/验证/测试折叠定义文件
- 标签文件
- 数据文件
- 索引文件
索引文件
- 包含三个必需的列:
subject,trail,time subject定义主题标识符trail允许指定不同的试验time定义时间(绝对或相对)
任务文件
- 至少包含一个列
- 通常,列将是一个字符串列表,其中字符串对应于目标
数据文件
- 数据格式简单,例如:
x, y, z,其中x,y,z对应于穿戴设备的轴 - 默认情况下,为每种模式(如加速度计、陀螺仪和磁力计)和每个位置(如手腕、腰部)创建不同的文件
折叠定义
- 训练和测试折叠由文件的列定义
- 行为基于scikit-learn的
PredefinedSplit模块
贡献数据集
- 在
metadata/datasets目录中创建一个新的yaml文件,并尽可能准确地填写信息。 - 运行
make table以更新tables目录中的数据集表。 - 运行
make data以下载根据download_urls字段提供的URL自动下载存档。 - 将文件
src/datasets/__new__.py复制到src/datasets/<dataset-name>.py,其中<dataset-name>由步骤1定义。
数据集列表
以下表格列举了本项目考虑包含的数据集:
| First Author | Dataset Name | Paper (URL) | Data Description (URL) | Data Download (URL) | Year | fs | Accel | Gyro | Mag | #Subjects | #Activities | Notes |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
(完整列表请参阅原始README文件)
搜集汇总
数据集介绍

构建方式
har_datasets数据集的构建旨在提供一个统一的接口,用于穿戴式设备的人类活动识别(HAR)数据集。其核心理念是通过收集多种记录条件下的数据集,并将其转换为一致的数据格式,以便更方便地解决特征提取、表示学习、元学习/迁移学习、主动学习等任务。具体构建过程中,数据集被分为四个关键元素:训练/验证/测试折叠定义文件、标签文件、数据文件和索引文件。这些文件以每样本为基础进行序列化存储,确保每个文件具有相同数量的行。此外,通过使用dotenv库管理全局变量,确保数据集的顺利加载和处理。
特点
har_datasets数据集的主要特点在于其统一的数据格式和广泛的适用性。所有纳入的数据集都被转换为一致的格式,便于跨数据集的比较和分析。此外,数据集支持多种特殊折叠定义,如LOSO(留一法交叉验证)和deployable(可部署模型),增强了其在实际应用中的灵活性。数据集还包含了丰富的元数据信息,如传感器模态、传感器位置和任务定义,这些信息为研究者提供了详尽的数据背景,有助于更深入的分析和模型构建。
使用方法
使用har_datasets数据集时,首先需要设置虚拟环境,推荐使用miniconda进行Python环境管理。通过pipenv安装所需的依赖包,并激活虚拟环境。接着,配置dotenv文件以设置全局变量,如项目根目录、ZIP文件存储路径和构建路径。数据集的加载和处理通过make命令进行,确保数据的一致性和可重复性。研究者可以根据需要贡献新的数据集、处理方法或模型,通过遵循项目提供的贡献指南,确保数据格式和处理流程的标准化。
背景与挑战
背景概述
穿戴式设备在人体活动识别(Human Activity Recognition, HAR)领域的应用日益广泛,为研究者提供了丰富的数据资源。har_datasets数据集旨在通过统一接口整合多种穿戴式设备的数据,以促进特征提取、表示学习、元学习及迁移学习等任务的研究。该数据集由主要研究人员或机构创建,旨在解决HAR领域的核心问题,即如何从多源异构数据中提取有效特征,以提高活动识别的准确性和鲁棒性。自创建以来,该数据集已成为HAR研究的重要资源,推动了相关领域的发展。
当前挑战
har_datasets数据集在构建过程中面临多重挑战。首先,数据来源多样,涵盖不同记录条件和设备类型,导致数据格式和质量的异质性。其次,如何将这些异构数据转换为统一的格式,以便于后续分析和模型训练,是一个技术难题。此外,数据集的扩展性和可维护性也是一大挑战,随着新数据集的加入,如何保持数据一致性和更新现有模型,需要持续的技术投入和标准化管理。最后,数据隐私和安全问题在穿戴式设备数据处理中尤为重要,确保数据使用的合规性和用户隐私保护是不可忽视的挑战。
常用场景
经典使用场景
在可穿戴设备领域,har_datasets数据集的经典使用场景主要集中在人体活动识别(Human Activity Recognition, HAR)任务中。该数据集通过统一接口整合了多种可穿戴设备记录的数据,为研究人员提供了一个标准化的数据格式。这种标准化使得研究人员能够更方便地进行特征提取、表示学习、元学习/迁移学习以及主动学习等任务。通过这些任务,研究人员可以深入探索不同活动识别算法的性能,从而推动HAR领域的发展。
衍生相关工作
基于har_datasets数据集,许多相关的经典工作得以展开。例如,研究人员利用该数据集进行特征提取和表示学习,开发了更高效的活动识别算法。此外,该数据集还促进了元学习/迁移学习在HAR领域的应用,使得模型能够在不同数据集之间进行有效的知识迁移。还有一些工作专注于数据集的扩展和改进,通过引入新的传感器数据和任务定义,进一步丰富了HAR研究的多样性。这些衍生工作不仅提升了HAR技术的性能,还推动了相关领域的研究进展。
数据集最近研究
最新研究方向
在可穿戴设备领域,har_datasets数据集的最新研究方向主要集中在特征提取与表示学习、元学习与迁移学习以及主动学习等任务上。这些研究旨在通过统一的数据接口,整合多种数据集,以解决当前人类活动识别(HAR)中的关键问题。通过这种方式,研究者们能够更系统地评估和比较不同方法的稳定性、优势和劣势,从而推动HAR技术的进一步发展。此外,数据集的标准化格式和丰富的元数据支持,也为跨领域研究提供了坚实的基础,促进了多模态数据融合和新型算法的开发。
以上内容由遇见数据集搜集并总结生成



