CUHK-S

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/willow-cuhk/CUHK-S

下载链接

链接失效反馈

官方服务：

资源简介：

CUHK-S是一个专注于隐私保护的多模态数据集，用于人类动作识别（HAR）、理解（HAU）和推理（HARn）。作为CUHK-X数据集的子集，CUHK-S移除了所有RGB视频以防止面部识别，并将所有视觉模态的分辨率降至320 × 240。数据集包含18名参与者的数据，覆盖40个动作类别，提供六种模态的数据：深度图、红外图像、热成像、IMU（惯性测量单元）、雷达点云和骨骼数据。数据总量约为146 GB，按参与者打包为18个压缩文件。数据集结构分为HAR、HAU、HARn和原始数据四个部分，支持多种任务，如动作识别、动作选择、动作描述生成等。数据集遵循严格的隐私保护措施，并获得了机构审查委员会（IRB）的批准。

CUHK-S is a privacy-focused multimodal dataset for Human Action Recognition (HAR), Understanding (HAU), and Reasoning (HARn). As a subset of the CUHK-X dataset, CUHK-S removes all RGB videos to prevent facial recognition and reduces the resolution of all visual modalities to 320 × 240. The dataset includes data from 18 participants, covering 40 action categories, and provides six modalities: depth maps, infrared images, thermal images, IMU (Inertial Measurement Unit), radar point clouds, and skeletal data. The total data volume is approximately 146 GB, packaged into 18 compressed files by participant. The dataset is structured into four parts: HAR, HAU, HARn, and raw data, supporting various tasks such as action recognition, action selection, and action description generation. The dataset adheres to strict privacy protection measures and has received approval from the Institutional Review Board (IRB).

创建时间：

2026-04-29

原始信息汇总

CUHK-S 数据集概述

CUHK-S 是一个面向隐私保护的多模态人体动作识别（HAR）数据集，是 CUHK-X 数据集（已被 MobiSys 2026 录用）的隐私保护子集。

基本信息

属性	数值
参与者数量	18 人（从 CUHK-X 的 30 人中选出）
动作类别	40 种
模态数量	6 种（Depth, IR, Thermal, IMU, Radar, Skeleton）
视觉分辨率	320 × 240
总大小	~146 GB（18 个 zip 文件，每人一个）
许可协议	CC-BY-4.0（标注/划分）；数据集本身需签署数据使用协议（DUA）非商业研究使用
任务类型	视频分类、文本生成
语言	英文

与 CUHK-X 的主要区别

移除所有 RGB 视频，防止面部识别
下采样所有视觉模态至 320 × 240
选择 18 名参与者，同时保留全部 40 个动作类别

多模态数据

模态	格式	描述
Depth	PNG（彩色）	来自 Vzense NYX 650 的彩色深度图
IR	PNG	红外图像，对光照变化鲁棒
Thermal	PNG	热像仪的热辐射信号
IMU	CSV	5 个传感器的加速度计/陀螺仪/磁力计
Radar	Binary	mmWave 雷达点云（TI Radar）
Skeleton	JSON/CSV	姿态估计的 3D 关节位置

IMU 传感器布局

传感器	位置	通道（每个传感器）
WTLA	左臂	Acc(X/Y/Z), Gyro(X/Y/Z), Mag(X/Y/Z)
WTC	胸部	Acc(X/Y/Z), Gyro(X/Y/Z), Mag(X/Y/Z)
WTRA	右臂	Acc(X/Y/Z), Gyro(X/Y/Z), Mag(X/Y/Z)
WTRL	右腿	Acc(X/Y/Z), Gyro(X/Y/Z), Mag(X/Y/Z)
WTLL	左腿	Acc(X/Y/Z), Gyro(X/Y/Z), Mag(X/Y/Z)

数据集结构

每位参与者的数据打包为一个 zip 文件：CUHK-S_userN-userN.zip

CUHK-S/ ├── HAR/ # 人体动作识别（按动作组织） │ ├── data/ # 包含 depth_color/, ir/, thermal/, imu/, radar/, skeleton/ │ └── GT/ # 真实标注 ├── HARn/ # 人体动作推理（按模态组织） │ ├── data/ │ └── GT/ ├── HAU/ # 人体动作理解（按模态组织） │ ├── data/ │ └── GT/ └── source_data/ # 原始未处理数据 ├── data/ └── GT/

HAR：单一明确动作，用于传统分类任务
HAU：序列动作，用于时间和上下文理解
HARn：序列动作，用于下一动作推理和预测
source_data：原始未处理的传感器数据

基准任务与评估指标

任务	类型	评估指标
动作识别	分类	Accuracy, F1, Precision, Recall
动作选择	多项选择	Accuracy
动作描述	生成	BLEU, METEOR
情绪分析	分类	Accuracy
序列重排序	排序	Accuracy
下一动作推理	推理	Accuracy

隐私保护措施

不包含 RGB 视频，防止面部识别
所有视觉模态下采样至 320 × 240
参与者仅通过数字 ID（如 user1, user2）标识
不关联任何个人可识别信息
IMU、Radar 和 Skeleton 模态不捕获视觉外观
已获得机构审查委员会（IRB）批准

引用

bibtex @inproceedings{jiang2026cuhkx, title={CUHK-X: A Large-Scale Multimodal Dataset and Benchmark for Human Action Recognition, Understanding and Reasoning}, author={Jiang, Siyang and others}, booktitle={Proceedings of ACM MobiSys}, year={2026} }

搜集汇总

数据集介绍

构建方式

CUHK-S数据集是CUHK-X大规模多模态人体动作识别基准的一个隐私保护子集，源自MobiSys 2026会议录用的工作。为规避面部识别风险，该数据集彻底移除了RGB视频，并将所有视觉模态的分辨率缩减至320×240。从原始30名参与者中精选出18名，确保覆盖全部40类动作类别，每名参与者的数据独立打包为zip文件。数据采集涉及多种传感器：深度图来自Vzense NYX 650相机，红外与热成像分别记录环境与热信号，五组IMU传感器（左右臂、胸部、左右腿）以CSV格式输出加速度计、陀螺仪和磁力计数据，毫米波雷达生成二进制点云，骨架信息则以JSON/CSV格式提供3D关节点坐标。整体结构按HAR、HAU、HARn及source_data四个子目录组织，分别应对单一动作分类、时序动作理解、后续动作推理及原始数据存储。

特点

CUHK-S的核心特色在于隐私保护与多模态丰富性的精妙平衡。通过舍弃RGB模态，数据集有效避免了参与者身份泄露，同时保留了深度、红外、热成像、IMU、雷达和骨架六种互补模态，其中骨架与雷达数据不直接捕获外观信息，进一步强化了匿名性。所有视觉数据统一缩放到320×240分辨率，参与者仅以数字ID标识，无任何个人身份信息关联。模态多样性赋予数据集跨传感器融合研究的独特价值：IMU的五点布局提供了人体运动动力学细节，红外与热成像在光照变化下保持鲁棒，雷达点云则对遮挡不敏感。动作覆盖40个类别，并细分出HAR（单一动作）、HAU（序列动作）和HARn（动作推理）三类任务，支持从分类到生成的多层次基准评测。总计约146GB的规模为大规模多模态学习提供了坚实基础。

使用方法

使用CUHK-S时，研究者可先按参与者ID解压对应的zip文件，获取HAR、HAU、HARn及source_data目录下的结构化数据。HAR文件夹以动作为单位组织，适合传统的分类任务；HAU和HARn则以模态为单位提供序列数据，便于时序建模与推理研究。数据集支持六大基准任务：动作识别采用准确率、F1值等分类指标；动作选择为多项选择任务；动作描述生成需评价BLEU和METEOR分数；情绪分析、序列重排序及下一步动作推理均以准确率衡量。各模态数据格式明确——图像（PNG）、IMU（CSV）、雷达（二进制）、骨架（JSON/CSV），可便捷导入PyTorch或TensorFlow框架。代码以MIT License开源，数据集则需遵循数据使用协议（DUA）仅用于非商业研究，派生注释以CC BY 4.0发布。建议结合官方项目页面和论文获取更详细的跨模态对齐与评估脚本。

背景与挑战

背景概述

CUHK-S数据集由香港中文大学AIoT实验室于2026年创建，作为MobiSys 2026收录的CUHK-X数据集的隐私保护子集，专注于解决人体动作识别、理解与推理中的隐私与多模态协同问题。该数据集由18名参与者完成40类动作，涵盖深度、红外、热成像、IMU、毫米波雷达和骨架6种模态，通过移除RGB视频、降维视觉数据及匿名化处理，为跨模态人体行为分析提供了隐私安全的研究基准，对可穿戴计算、智能家居及人机交互领域具有重要推动作用。

当前挑战

当前挑战主要集中于三个方面：其一，如何在剥离RGB视频后，仍能通过深度、红外等非视觉模态实现与传统视觉方法相当的识别精度，这对多模态信息融合与互补机制提出了更高要求。其二，数据采集过程中需协调5个IMU传感器及多类视觉设备，确保时空同步与数据质量，同时处理毫米波雷达点云与骨架估计的非对齐问题。其三，隐私保护与可用性之间的平衡——降低分辨率虽防身份识别，却可能削弱细粒度动作的辨别能力，如何构建鲁棒的隐私-效用权衡策略是核心难题。

常用场景

经典使用场景

在人体动作识别与行为理解领域，CUHK-S数据集以其多模态、隐私保护的独特设计，成为推动算法发展的关键基准。该数据集汇聚了深度图、红外、热成像、惯性测量单元（IMU）、毫米波雷达与骨架等六种模态数据，覆盖40种动作类别，支持经典的动作识别分类任务。研究者可基于该数据集构建多模态融合模型，探索各传感器在不同光照、遮挡条件下的互补特性，从而提升模型在复杂场景下的鲁棒性与泛化能力。

解决学术问题

CUHK-S数据集的核心贡献在于解决了传统RGB视频在行为识别中引发的隐私泄露顽疾。通过移除面部识别信息并降低视觉分辨率，该数据集为隐私保护下的行为分析提供了标准化评估平台。它推动了非光学传感器（如IMU、雷达）在动作理解领域的深度研究，助力学术社区探索不依赖视觉外观的鲁棒特征表示，从而在保护受试者身份的前提下，实现高精度的动作识别、时序推理与意图预测。

衍生相关工作

围绕CUHK-S数据集，学术界已衍生出多项重要工作。论文《CUHK-X: A Large-Scale Multimodal Dataset and Benchmark for Human Action Recognition, Understanding and Reasoning》被MobiSys 2026收录，为多模态行为分析设立了新标杆。基于该数据集，研究者开发了动作选择、动作描述生成、情感分析、序列重排序及下一步动作推理等一系列基准任务，推动了从单帧分类到时序因果推理的范式演进，并为隐私保护型边缘AI模型的设计提供了丰富的评估资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集