five

har_datasets

收藏
github2024-01-18 更新2024-05-31 收录
下载链接:
https://github.com/njtwomey/har_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库旨在提供一个统一接口,用于分析基于加速度计的人类活动识别数据集。其理念是收集多种不同记录条件下的数据集,并将这些数据转换为一致的数据格式,以便更容易地解决特征提取/表示学习、元/迁移学习、主动学习等任务中的开放问题。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和劣势的中心。

This repository aims to provide a unified interface for analyzing human activity recognition datasets based on accelerometers. The concept is to collect datasets under various recording conditions and convert these data into a consistent format, making it easier to address open issues in tasks such as feature extraction/representation learning, meta/transfer learning, and active learning. The ultimate goal is to create a hub that facilitates understanding the stability, strengths, and weaknesses of the latest technologies in the HAR field.
创建时间:
2018-12-12
原始信息汇总

数据集概述

本项目旨在提供一个统一接口,用于穿戴式人体活动识别(HAR)数据集。项目收集了多种录音条件下的数据集,并将其转换为一致的数据格式,以便更轻松地解决特征提取/表示学习、元/迁移学习、主动学习等任务。最终目标是创建一个易于理解HAR领域最新技术稳定性、优势和弱点的家园。

数据格式

所有数据集的数据被转换为包含四个关键元素的统一格式:

  1. 训练/验证/测试折叠定义文件
  2. 标签文件
  3. 数据文件
  4. 索引文件
索引文件
  • 包含三个必需的列:subject, trail, time
  • subject 定义主题标识符
  • trail 允许指定不同的试验
  • time 定义时间(绝对或相对)
任务文件
  • 至少包含一个列
  • 通常,列将是一个字符串列表,其中字符串对应于目标
数据文件
  • 数据格式简单,例如:x, y, z,其中x, y, z对应于穿戴设备的轴
  • 默认情况下,为每种模式(如加速度计、陀螺仪和磁力计)和每个位置(如手腕、腰部)创建不同的文件
折叠定义
  • 训练和测试折叠由文件的列定义
  • 行为基于scikit-learn的PredefinedSplit模块

贡献数据集

  1. metadata/datasets目录中创建一个新的yaml文件,并尽可能准确地填写信息。
  2. 运行make table以更新tables目录中的数据集表。
  3. 运行make data以下载根据download_urls字段提供的URL自动下载存档。
  4. 将文件src/datasets/__new__.py复制到src/datasets/<dataset-name>.py,其中<dataset-name>由步骤1定义。

数据集列表

以下表格列举了本项目考虑包含的数据集:

First Author Dataset Name Paper (URL) Data Description (URL) Data Download (URL) Year fs Accel Gyro Mag #Subjects #Activities Notes
... ... ... ... ... ... ... ... ... ... ... ... ...

(完整列表请参阅原始README文件)

搜集汇总
数据集介绍
main_image_url
构建方式
har_datasets数据集的构建旨在提供一个统一的接口,用于穿戴式设备的人类活动识别(HAR)数据集。其核心理念是通过收集多种记录条件下的数据集,并将其转换为一致的数据格式,以便更方便地解决特征提取、表示学习、元学习/迁移学习、主动学习等任务。具体构建过程中,数据集被分为四个关键元素:训练/验证/测试折叠定义文件、标签文件、数据文件和索引文件。这些文件以每样本为基础进行序列化存储,确保每个文件具有相同数量的行。此外,通过使用dotenv库管理全局变量,确保数据集的顺利加载和处理。
特点
har_datasets数据集的主要特点在于其统一的数据格式和广泛的适用性。所有纳入的数据集都被转换为一致的格式,便于跨数据集的比较和分析。此外,数据集支持多种特殊折叠定义,如LOSO(留一法交叉验证)和deployable(可部署模型),增强了其在实际应用中的灵活性。数据集还包含了丰富的元数据信息,如传感器模态、传感器位置和任务定义,这些信息为研究者提供了详尽的数据背景,有助于更深入的分析和模型构建。
使用方法
使用har_datasets数据集时,首先需要设置虚拟环境,推荐使用miniconda进行Python环境管理。通过pipenv安装所需的依赖包,并激活虚拟环境。接着,配置dotenv文件以设置全局变量,如项目根目录、ZIP文件存储路径和构建路径。数据集的加载和处理通过make命令进行,确保数据的一致性和可重复性。研究者可以根据需要贡献新的数据集、处理方法或模型,通过遵循项目提供的贡献指南,确保数据格式和处理流程的标准化。
背景与挑战
背景概述
穿戴式设备在人体活动识别(Human Activity Recognition, HAR)领域的应用日益广泛,为研究者提供了丰富的数据资源。har_datasets数据集旨在通过统一接口整合多种穿戴式设备的数据,以促进特征提取、表示学习、元学习及迁移学习等任务的研究。该数据集由主要研究人员或机构创建,旨在解决HAR领域的核心问题,即如何从多源异构数据中提取有效特征,以提高活动识别的准确性和鲁棒性。自创建以来,该数据集已成为HAR研究的重要资源,推动了相关领域的发展。
当前挑战
har_datasets数据集在构建过程中面临多重挑战。首先,数据来源多样,涵盖不同记录条件和设备类型,导致数据格式和质量的异质性。其次,如何将这些异构数据转换为统一的格式,以便于后续分析和模型训练,是一个技术难题。此外,数据集的扩展性和可维护性也是一大挑战,随着新数据集的加入,如何保持数据一致性和更新现有模型,需要持续的技术投入和标准化管理。最后,数据隐私和安全问题在穿戴式设备数据处理中尤为重要,确保数据使用的合规性和用户隐私保护是不可忽视的挑战。
常用场景
经典使用场景
在可穿戴设备领域,har_datasets数据集的经典使用场景主要集中在人体活动识别(Human Activity Recognition, HAR)任务中。该数据集通过统一接口整合了多种可穿戴设备记录的数据,为研究人员提供了一个标准化的数据格式。这种标准化使得研究人员能够更方便地进行特征提取、表示学习、元学习/迁移学习以及主动学习等任务。通过这些任务,研究人员可以深入探索不同活动识别算法的性能,从而推动HAR领域的发展。
衍生相关工作
基于har_datasets数据集,许多相关的经典工作得以展开。例如,研究人员利用该数据集进行特征提取和表示学习,开发了更高效的活动识别算法。此外,该数据集还促进了元学习/迁移学习在HAR领域的应用,使得模型能够在不同数据集之间进行有效的知识迁移。还有一些工作专注于数据集的扩展和改进,通过引入新的传感器数据和任务定义,进一步丰富了HAR研究的多样性。这些衍生工作不仅提升了HAR技术的性能,还推动了相关领域的研究进展。
数据集最近研究
最新研究方向
在可穿戴设备领域,har_datasets数据集的最新研究方向主要集中在特征提取与表示学习、元学习与迁移学习以及主动学习等任务上。这些研究旨在通过统一的数据接口,整合多种数据集,以解决当前人类活动识别(HAR)中的关键问题。通过这种方式,研究者们能够更系统地评估和比较不同方法的稳定性、优势和劣势,从而推动HAR技术的进一步发展。此外,数据集的标准化格式和丰富的元数据支持,也为跨领域研究提供了坚实的基础,促进了多模态数据融合和新型算法的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作