SigmaCollab

github2025-11-05 更新2025-11-06 收录

下载链接：

https://github.com/microsoft/SigmaCollab

下载链接

链接失效反馈

官方服务：

资源简介：

SigmaCollab是一个支持人机物理环境协作研究的数据集，包含85个未经培训参与者在混合现实AI助手指导下执行物理世界程序性任务的会话，以及8个系统指导专家执行相同任务的额外会话。数据集包含丰富的多模态数据流，包括参与者和系统音频、头戴设备的自我中心相机视图、深度图、头部、手部和视线跟踪信息，以及事后进行的额外标注。

SigmaCollab is a dataset supporting research on human-machine collaborative work in physical environments. It comprises 85 sessions in which untrained participants carried out physical-world procedural tasks under the guidance of mixed-reality AI assistants, alongside 8 additional sessions where system-instructed experts performed the same tasks. This dataset features rich multimodal data streams, including audio recordings of participants and the system, egocentric camera views captured by head-mounted devices, depth maps, tracking data for head movement, hand motion and gaze, as well as supplementary post-hoc annotations.

创建时间：

2025-10-22

原始信息汇总

SigmaCollab数据集概述

数据集简介

SigmaCollab是一个支持人机物理协同研究的数据集，包含85个未经训练参与者在混合现实辅助AI代理指导下执行物理世界程序性任务的会话，以及8个系统指导专家执行相同任务的额外会话。

数据内容

会话构成

参与者会话：85个
专家演示会话：8个

多模态数据流

数据流类型	技术规格	平均帧率
RGB摄像头视图	896×504像素@24bpp，含摄像头姿态和内参	14.91 Hz
深度摄像头视图	320×288像素@16bpp，含摄像头姿态和内参	4.98 Hz
左前灰度摄像头视图	640×480像素@8bpp，含摄像头姿态和内参	13.64 Hz
右前灰度摄像头视图	640×480像素@8bpp，含摄像头姿态和内参	13.64 Hz
头部姿态+眼动追踪	头部姿态矩阵(4×4)和眼动射线(3×1原点位置向量和3×1方向向量)	28.37 Hz
手部姿态	左右手各26个关节的姿态矩阵(4×4)	20.01 Hz
音频	单声道，32位浮点PCM	16.00 kHz

附加标注

用户语音手动分割和转录
用户和系统语音的词级时间标注
任务成功标注
后处理的眼动信息

数据获取

下载方式

数据集托管在HuggingFace平台，可通过GitHub仓库下载：

bash git clone https://github.com/microsoft/SigmaCollab cd SigmaCollab

下载选项

完整数据集：wget -i download/all_sessions（约112GB）
按模态下载：使用all_sessions、participant_sessions和expert_sessions别名配合模态名称

技术特性

应用驱动和交互性质
为物理情境下人机协作提供新颖研究挑战
为AI模型提供更真实的测试环境

许可证

数据集：CDLA-Permissive-2.0许可证
GitHub站点文件：MIT许可证

引用信息

如需在研究中引用本数据集，请引用相关论文：

@misc{bohus2025sigmacollabapplicationdrivendatasetphysically, title={SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration}, author={Dan Bohus and Sean Andrist and Ann Paradiso and Nick Saw and Tim Schoonbeek and Maia Stiber}, year={2025}, eprint={2511.02560}, archivePrefix={arXiv}, primaryClass={cs.HC}, url={https://arxiv.org/abs/2511.02560}, }

搜集汇总

数据集介绍

构建方式

在混合现实人机协作研究领域，SigmaCollab数据集通过开源Sigma系统采集了93组实验数据，其中85组由未经训练的参与者在AI助手引导下完成物理空间中的流程性任务，另有8组由专家执行相同任务作为参照。数据采集过程融合了头戴设备的多模态传感器，以固定采样率同步记录包括彩色与深度视觉、骨骼运动轨迹、眼球注视向量及音频流在内的多维信息，为构建真实交互场景下的协作行为图谱提供了技术基础。

特点

该数据集的核心价值体现在其多模态数据流的深度融合与精细标注。除基础传感器数据外，还包含人工标注的语音转录时序、任务完成度评估及后处理的视线投影信息。高达14.91Hz的彩色图像与28.37Hz的头部姿态数据形成了时空对齐的观测体系，而16kHz的音频通道与20.01Hz的手部关节追踪则共同构建了动态交互行为的立体表征，为研究物理空间中的细粒度协作机制创造了必要条件。

使用方法

研究者可通过克隆GitHub仓库并执行wget指令获取约112GB的完整数据集，亦可根据实验需求选择性下载特定模态的子集。数据以压缩包形式分发，解压后按会话与模态分类存储，支持对参与者会话、专家示范会话或单一模态数据的独立分析。该数据集遵循CDLA-Permissive-2.0许可协议，配套的Sigma开源系统更允许用户在相同框架下扩展数据采集，为验证算法在真实物理协作场景中的适应性提供完整技术生态。

背景与挑战

背景概述

在混合现实与人工智能融合的研究浪潮中，微软研究院于2025年推出了SigmaCollab数据集，旨在推动物理场景下人机协作的实证探索。该数据集通过开源的Sigma混合现实平台，采集了85组非专业参与者与8组专家在实体环境中执行流程化任务的交互数据，其多模态特性涵盖了视觉、听觉与运动追踪等维度。作为首个面向物理情境协作的开放数据集，它不仅填补了具身智能研究的数据空白，更为人机交互、认知计算与机器人学等领域提供了关键的基准测试资源。

当前挑战

物理场景人机协作面临双重挑战：在领域层面，需解决动态环境感知、多模态意图理解与实时决策的协同问题，例如如何通过头部姿态与手势数据准确推断用户操作意图；在构建层面，数据采集需平衡高精度传感器同步与自然交互体验，如深度相机与RGB视觉流的时间对齐难题，同时手动标注语音转录与任务成功标签亦带来了显著的人工成本。这些挑战共同凸显了开发鲁棒性协作模型对高质量多模态数据的依赖。

常用场景

经典使用场景

在混合现实环境中，SigmaCollab数据集为研究人机物理协同提供了关键支持。该数据集通过记录85组非专业参与者在AI助手引导下执行物理世界程序性任务的互动过程，构建了多模态数据框架。其经典应用体现在训练智能体理解人类在三维空间中的行为模式，包括头部姿态、手势轨迹与语音指令的同步解析，为具身智能研究提供了真实交互范本。

衍生相关工作

该数据集催生了多项具身智能领域的创新研究，例如基于多模态融合的协同决策框架开发。研究者利用其丰富的时空标注数据，构建了能够预测人类意图的视觉语言模型。开源平台Sigma进一步扩展了数据集生态，促使更多研究团队在此基础上开发新的混合现实交互范式，形成持续演进的技术闭环。

数据集最近研究