monster-monash/WISDM2

Name: monster-monash/WISDM2
Creator: monster-monash
Published: 2025-04-14 06:59:11
License: 暂无描述

Hugging Face2025-04-14 更新2025-04-26 收录

下载链接：

https://hf-mirror.com/datasets/monster-monash/WISDM2

下载链接

链接失效反馈

官方服务：

资源简介：

WISDM2数据集是MONSTER项目的一部分，它扩展了原始的WISDM数据集，通过在现实世界环境中使用Actitracker系统收集了更多的传感器读数。这个数据集包含了149,034个时间序列，每个序列长度为100，代表以20Hz采样率记录的5秒数据。数据集包含了六种活动的记录，并基于参与者进行了拆分。

WISDM2 dataset is part of the MONSTER project, extending the original WISDM dataset by collecting a more extensive set of sensor readings in real-world environments using the Actitracker system. This dataset includes 149,034 time series, each with a length of 100, representing 5 seconds of data recorded at a sampling rate of 20 Hz. The dataset contains records of six activities and is split based on participants.

提供机构：

monster-monash

搜集汇总

数据集介绍

构建方式

WISDM2数据集是原始WISDM数据集的扩展版本，旨在提升真实环境下的人类活动识别能力。其构建依托于Actitracker系统，该系统面向公众开放，用于采集用户在执行六种日常活动时的传感器读数。数据收集在自然场景中进行，参与者的规模和多样性均显著增加，从而增强了数据集的生态效度。原始数据包含2,980,765个三维样本，经处理后形成149,034条时间序列，每条序列长度为100，对应于以20赫兹采样率记录的5秒数据。数据集按受试者进行划分，确保训练与测试样本的独立性。

特点

WISDM2数据集的核心特点在于其真实世界采集背景与高维度覆盖。与实验室环境下的数据不同，该数据集来源于多样化的用户群体和自然场景，有效反映了实际应用中传感器信号的变异性。数据包含三个加速度计通道，时间序列长度统一为100，共涵盖6个活动类别。采样频率为20赫兹，兼顾了信号细节与数据量级的平衡。作为MONSTER基准的一部分，WISDM2为时间序列分类任务提供了具有挑战性的评估平台，其规模介于10万至100万条之间，兼具统计代表性与计算可行性。

使用方法

WISDM2数据集适用于时间序列分类任务的模型训练与评估。使用者可直接加载已处理的149,034条长度为100的三维时间序列，并依据受试者划分的训练集和测试集进行实验。该数据集兼容主流深度学习框架，如PyTorch和TensorFlow，可通过构建数据加载器实现批量输入。建议在模型设计时考虑多通道特征融合与序列建模策略，以充分挖掘加速度信号的时空模式。评估指标可选用分类准确率、F1分数等，以衡量模型在六类活动识别上的泛化能力。

背景与挑战

背景概述

在人类活动识别（HAR）领域，传感器数据的真实性与多样性是推动模型泛化能力提升的关键。WISDM2数据集由Gary Mitchell Weiss与Jeffrey Lockhart于2012年创建，依托Actitracker系统在真实世界环境中采集而成。该数据集旨在克服早期WISDM数据集在参与者多样性和场景自然性上的局限，为智能手机基础的活动识别研究提供更丰富的资源。WISDM2包含149,034条时间序列，每条序列长度为100（对应20Hz采样频率下5秒的数据），涵盖六类日常活动，并通过按受试者划分的方式确保评估的独立性。作为MONSTER基准的一部分，该数据集在个性化活动识别与跨场景泛化研究中具有重要影响力，为领域内模型鲁棒性评估提供了标准化测试平台。

当前挑战

WISDM2数据集所面临的挑战主要源于真实环境下的活动识别复杂性。在领域问题层面，不同个体执行相同活动时的行为差异（如步频、幅度）导致类内方差显著，而环境噪声（如传感器放置位置、设备类型）则进一步加剧了类间混淆，这使得模型需同时应对个性化特征与通用表征的平衡。在构建过程中，数据采集依赖公共用户自行操作，导致样本质量参差不齐，部分序列可能包含异常抖动或缺失片段，需通过预处理统一长度至100步长。此外，受试者数量虽较原WISDM有所扩展，但分布不均可能引入潜在偏差，对跨群体泛化能力构成挑战。

常用场景

经典使用场景

WISDM2数据集在时间序列分类领域扮演着举足轻重的角色，尤其适用于人体活动识别（HAR）任务。该数据集通过Actitracker系统在真实世界环境中采集，包含来自多样受试者的三轴加速度计信号，每段序列长度为100个时间点（对应5秒、20Hz采样率），涵盖行走、慢跑等六类日常活动。研究者常利用其大规模样本（149,034条时间序列）和基于受试者的划分方式，构建并评估深度学习或传统机器学习模型，以探索跨个体泛化能力与活动模式的可迁移性。

解决学术问题

WISDM2数据集有效解决了真实场景下人体活动识别研究中数据规模不足与生态效度低下的关键问题。相较于原始WISDM数据集，其通过扩大受试者群体和自然情境采集，显著缓解了模型在跨个体、跨环境部署时的性能衰减现象。该数据集推动了对抗过拟合、域适应及个性化建模等学术议题的深入探讨，为验证算法在非受控条件下的鲁棒性提供了基准，对理解传感器信号与人类行为之间的复杂映射关系具有里程碑意义。

衍生相关工作

WISDM2数据集衍生了一系列经典研究工作，包括基于卷积神经网络的多通道特征提取架构、注意力机制驱动的时序建模方法，以及对比学习框架下的无监督活动表征学习。这些工作不仅提升了HAR任务的分类精度，还催生了针对传感器数据增强、跨数据集迁移学习等方向的系统性探索。例如，MONSTER基准（arXiv:2502.15122）即以此数据集为关键组件，系统评估了不同模型在统一协议下的表现，为领域内后续研究奠定了可复现的评估标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集