five

CMActivities

收藏
github2021-02-15 更新2024-05-31 收录
下载链接:
https://github.com/nesl/CMActivities-DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
CMActivities数据集包含视频、音频和IMU模态数据,通过两部智能手机从执行活动的用户处收集。数据集涵盖了上楼、下楼、行走、跑步、跳跃、洗手和跳跃杰克等七种活动。每个数据收集会话大约持续10秒,专注于单一活动。数据集分为训练、验证和测试集,分别从624个训练会话和71个测试会话中生成。

The CMActivities dataset comprises video, audio, and IMU (Inertial Measurement Unit) modality data, collected from users performing activities using two smartphones. The dataset encompasses seven types of activities including going upstairs, going downstairs, walking, running, jumping, washing hands, and jumping jacks. Each data collection session lasts approximately 10 seconds, focusing on a single activity. The dataset is divided into training, validation, and test sets, generated from 624 training sessions and 71 test sessions respectively.
创建时间:
2018-03-27
原始信息汇总

数据集概述

数据集名称

  • CMActivities-DataSet

数据收集过程

  • 数据集包含视频、音频和IMU(惯性测量单元)三种模态的数据,通过两部智能手机收集。
  • 第一部智能手机由观察者持有,用于记录和时间戳视频(及音频)数据。
  • 第二部智能手机放置在表演者的裤前口袋中,用于记录来自表演者左右手腕传感器的时间戳IMU数据。
  • 两部智能手机通过NTP同步。

数据内容

  • 数据集包含两名表演者执行七种活动(上楼、下楼、步行、跑步、跳跃、洗手和跳跃杰克)的数据。
  • 每个数据收集会话大约持续10秒,表演者执行单一活动。
  • 训练集来自624个训练会话,测试集来自71个测试会话,验证集使用部分训练会话生成。

发布数据

  • 发布的音频和IMU窗口样本,音频样本经过处理并提取了193个特征,IMU样本以原始形式提供。
  • 提供训练、验证和测试样本的下载链接。

模型训练脚本

  • 提供音频和IMU模型的训练脚本,包括训练、验证和测试的准确率。

时间偏移数据增强代码

  • 提供用于时间偏移数据增强的代码和相关笔记本,用于创建和测试增强数据。
搜集汇总
数据集介绍
main_image_url
构建方式
CMActivities数据集的构建过程基于多模态数据的采集与同步。数据采集过程中,两名参与者分别使用两部智能手机进行活动记录。其中一部手机由观察者手持,用于录制参与者的视频和音频,作为环境传感器;另一部手机则放置在参与者的裤袋中,用于记录来自左右手腕传感器的IMU数据。两部手机通过NTP协议进行时间同步,确保数据的时序一致性。数据集涵盖了七种日常活动,每项活动持续约10秒,最终生成了624个训练会话和71个测试会话。
特点
CMActivities数据集以其多模态特性为核心,融合了视频、音频和IMU数据,为跨模态学习提供了丰富的信息源。音频数据经过处理,提取了193个特征,而IMU数据则以原始形式提供。数据集的分割方式科学合理,训练集、验证集和测试集均来自两名参与者的数据,确保了模型的泛化能力。此外,数据集还提供了时间偏移数据增强代码,支持跨平台的多模态融合研究。
使用方法
CMActivities数据集的使用方法灵活多样,适用于多模态活动识别任务。用户可通过提供的训练脚本直接使用音频和IMU数据进行模型训练,支持从基础模型到增强模型的完整流程。数据集还提供了时间偏移数据增强的代码,用户可通过生成增强数据进一步提升模型性能。测试脚本支持对基础模型和增强模型的性能评估,帮助用户验证模型在不同时间偏移条件下的鲁棒性。所有数据样本和代码均通过Google Drive和GitHub公开,便于研究人员快速上手。
背景与挑战
背景概述
CMActivities数据集由加州大学洛杉矶分校的研究团队于2018年发布,旨在支持跨模态学习与活动识别的研究。该数据集由Tianwei Xing、Sandeep Singh Sandha等研究人员主导开发,主要关注通过智能手机设备收集的多模态数据(包括视频、音频和惯性测量单元数据)来识别用户的活动行为。数据集的核心研究问题在于如何通过跨模态训练提升边缘设备的活动识别能力,特别是在资源受限的环境下。CMActivities的发布为边缘计算和物联网领域的研究提供了重要的数据支持,推动了跨模态融合技术的发展。
当前挑战
CMActivities数据集在构建和应用过程中面临多重挑战。首先,跨模态数据的同步与对齐是一个关键问题,尽管数据集通过NTP协议实现了时间同步,但在实际应用中,音频、视频和IMU数据的时间偏差仍可能影响模型性能。其次,数据集的规模相对较小,仅包含两名用户的七种活动数据,这限制了模型的泛化能力。此外,视频数据的缺失(目前仅提供中间表示)进一步增加了跨模态融合的难度。最后,如何在边缘设备上高效处理多模态数据并实现实时活动识别,仍是该领域亟待解决的技术难题。
常用场景
经典使用场景
CMActivities数据集在跨模态学习领域具有重要应用,尤其是在多模态数据融合的研究中。该数据集通过同步收集视频、音频和IMU数据,为研究者提供了一个多模态数据融合的实验平台。经典的使用场景包括利用音频和IMU数据进行活动识别模型的训练与验证,特别是在智能手机平台上实现跨模态学习。通过该数据集,研究者能够探索不同模态数据之间的互补性,提升活动识别的准确性和鲁棒性。
解决学术问题
CMActivities数据集解决了多模态数据融合中的关键学术问题,特别是在跨设备、跨模态学习中的时间同步问题。通过提供精确的时间戳和同步的多模态数据,该数据集为研究者提供了研究时间偏移对模型性能影响的实验基础。此外,该数据集还支持研究者在有限数据条件下进行模型训练,解决了数据稀缺性对模型性能的限制问题,推动了跨模态学习算法的发展。
衍生相关工作
CMActivities数据集衍生了一系列经典研究工作,特别是在多模态数据融合和时间偏移增强领域。例如,Sandha等人提出的时间偏移数据增强方法,通过引入人工时间误差,显著提升了模型在跨设备场景下的鲁棒性。此外,该数据集还推动了跨模态学习算法的研究,如基于深度学习的多模态融合模型,这些模型在活动识别、健康监测等领域得到了广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作