har_datasets

github2024-01-18 更新2024-05-31 收录

下载链接：

https://github.com/njtwomey/har_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库旨在提供一个统一接口，用于分析基于加速度计的人类活动识别数据集。其理念是收集多种不同记录条件下的数据集，并将这些数据转换为一致的数据格式，以便更容易地解决特征提取/表示学习、元/迁移学习、主动学习等任务中的开放问题。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和劣势的中心。

This repository aims to provide a unified interface for analyzing human activity recognition datasets based on accelerometers. The concept is to collect datasets under various recording conditions and convert these data into a consistent format, making it easier to address open issues in tasks such as feature extraction/representation learning, meta/transfer learning, and active learning. The ultimate goal is to create a hub that facilitates understanding the stability, strengths, and weaknesses of the latest technologies in the HAR field.

创建时间：

2018-12-12

原始信息汇总

数据集概述

本项目旨在提供一个统一接口，用于穿戴式人体活动识别（HAR）数据集。项目收集了多种录音条件下的数据集，并将其转换为一致的数据格式，以便更轻松地解决特征提取/表示学习、元/迁移学习、主动学习等任务。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和弱点的家园。

数据格式

所有数据集的数据被转换为包含四个关键元素的统一格式：

训练/验证/测试折叠定义文件
标签文件
数据文件
索引文件

索引文件

包含三个必需的列：subject, trail, time
subject 定义主题标识符
trail 允许指定不同的试验
time 定义时间（绝对或相对）

任务文件

至少包含一个列
通常，列将是一个字符串列表，其中字符串对应于目标

数据文件

数据格式简单，例如：x, y, z，其中x, y, z对应于穿戴设备的轴
默认情况下，为每种模式（如加速度计、陀螺仪和磁力计）和每个位置（如手腕、腰部）创建不同的文件

折叠定义

训练和测试折叠由文件的列定义
行为基于scikit-learn的PredefinedSplit模块

贡献数据集

在metadata/datasets目录中创建一个新的yaml文件，并尽可能准确地填写信息。
运行make table以更新tables目录中的数据集表。
运行make data以下载根据download_urls字段提供的URL自动下载存档。
将文件src/datasets/__new__.py复制到src/datasets/<dataset-name>.py，其中<dataset-name>由步骤1定义。

数据集列表

以下表格列举了本项目考虑包含的数据集：

First Author	Dataset Name	Paper (URL)	Data Description (URL)	Data Download (URL)	Year	fs	Accel	Gyro	Mag	#Subjects	#Activities	Notes
...	...	...	...	...	...	...	...	...	...	...	...	...

（完整列表请参阅原始README文件）

搜集汇总

数据集介绍

构建方式

har_datasets数据集的构建旨在提供一个统一的接口，用于穿戴式设备的人类活动识别（HAR）数据集。其核心理念是通过收集多种记录条件下的数据集，并将其转换为一致的数据格式，以便更方便地解决特征提取、表示学习、元学习/迁移学习、主动学习等任务。具体构建过程中，数据集被分为四个关键元素：训练/验证/测试折叠定义文件、标签文件、数据文件和索引文件。这些文件以每样本为基础进行序列化存储，确保每个文件具有相同数量的行。此外，通过使用dotenv库管理全局变量，确保数据集的顺利加载和处理。

特点

har_datasets数据集的主要特点在于其统一的数据格式和广泛的适用性。所有纳入的数据集都被转换为一致的格式，便于跨数据集的比较和分析。此外，数据集支持多种特殊折叠定义，如LOSO（留一法交叉验证）和deployable（可部署模型），增强了其在实际应用中的灵活性。数据集还包含了丰富的元数据信息，如传感器模态、传感器位置和任务定义，这些信息为研究者提供了详尽的数据背景，有助于更深入的分析和模型构建。

使用方法

使用har_datasets数据集时，首先需要设置虚拟环境，推荐使用miniconda进行Python环境管理。通过pipenv安装所需的依赖包，并激活虚拟环境。接着，配置dotenv文件以设置全局变量，如项目根目录、ZIP文件存储路径和构建路径。数据集的加载和处理通过make命令进行，确保数据的一致性和可重复性。研究者可以根据需要贡献新的数据集、处理方法或模型，通过遵循项目提供的贡献指南，确保数据格式和处理流程的标准化。

背景与挑战

背景概述

穿戴式设备在人体活动识别（Human Activity Recognition, HAR）领域的应用日益广泛，为研究者提供了丰富的数据资源。har_datasets数据集旨在通过统一接口整合多种穿戴式设备的数据，以促进特征提取、表示学习、元学习及迁移学习等任务的研究。该数据集由主要研究人员或机构创建，旨在解决HAR领域的核心问题，即如何从多源异构数据中提取有效特征，以提高活动识别的准确性和鲁棒性。自创建以来，该数据集已成为HAR研究的重要资源，推动了相关领域的发展。

当前挑战

har_datasets数据集在构建过程中面临多重挑战。首先，数据来源多样，涵盖不同记录条件和设备类型，导致数据格式和质量的异质性。其次，如何将这些异构数据转换为统一的格式，以便于后续分析和模型训练，是一个技术难题。此外，数据集的扩展性和可维护性也是一大挑战，随着新数据集的加入，如何保持数据一致性和更新现有模型，需要持续的技术投入和标准化管理。最后，数据隐私和安全问题在穿戴式设备数据处理中尤为重要，确保数据使用的合规性和用户隐私保护是不可忽视的挑战。

常用场景

经典使用场景

在可穿戴设备领域，har_datasets数据集的经典使用场景主要集中在人体活动识别（Human Activity Recognition, HAR）任务中。该数据集通过统一接口整合了多种可穿戴设备记录的数据，为研究人员提供了一个标准化的数据格式。这种标准化使得研究人员能够更方便地进行特征提取、表示学习、元学习/迁移学习以及主动学习等任务。通过这些任务，研究人员可以深入探索不同活动识别算法的性能，从而推动HAR领域的发展。

衍生相关工作

基于har_datasets数据集，许多相关的经典工作得以展开。例如，研究人员利用该数据集进行特征提取和表示学习，开发了更高效的活动识别算法。此外，该数据集还促进了元学习/迁移学习在HAR领域的应用，使得模型能够在不同数据集之间进行有效的知识迁移。还有一些工作专注于数据集的扩展和改进，通过引入新的传感器数据和任务定义，进一步丰富了HAR研究的多样性。这些衍生工作不仅提升了HAR技术的性能，还推动了相关领域的研究进展。

数据集最近研究