SigmaCollab
收藏github2025-11-05 更新2025-11-06 收录
下载链接:
https://github.com/microsoft/SigmaCollab
下载链接
链接失效反馈官方服务:
资源简介:
SigmaCollab是一个支持人机物理环境协作研究的数据集,包含85个未经培训参与者在混合现实AI助手指导下执行物理世界程序性任务的会话,以及8个系统指导专家执行相同任务的额外会话。数据集包含丰富的多模态数据流,包括参与者和系统音频、头戴设备的自我中心相机视图、深度图、头部、手部和视线跟踪信息,以及事后进行的额外标注。
SigmaCollab is a dataset supporting research on human-machine collaborative work in physical environments. It comprises 85 sessions in which untrained participants carried out physical-world procedural tasks under the guidance of mixed-reality AI assistants, alongside 8 additional sessions where system-instructed experts performed the same tasks. This dataset features rich multimodal data streams, including audio recordings of participants and the system, egocentric camera views captured by head-mounted devices, depth maps, tracking data for head movement, hand motion and gaze, as well as supplementary post-hoc annotations.
创建时间:
2025-10-22
原始信息汇总
SigmaCollab数据集概述
数据集简介
SigmaCollab是一个支持人机物理协同研究的数据集,包含85个未经训练参与者在混合现实辅助AI代理指导下执行物理世界程序性任务的会话,以及8个系统指导专家执行相同任务的额外会话。
数据内容
会话构成
- 参与者会话:85个
- 专家演示会话:8个
多模态数据流
| 数据流类型 | 技术规格 | 平均帧率 |
|---|---|---|
| RGB摄像头视图 | 896×504像素@24bpp,含摄像头姿态和内参 | 14.91 Hz |
| 深度摄像头视图 | 320×288像素@16bpp,含摄像头姿态和内参 | 4.98 Hz |
| 左前灰度摄像头视图 | 640×480像素@8bpp,含摄像头姿态和内参 | 13.64 Hz |
| 右前灰度摄像头视图 | 640×480像素@8bpp,含摄像头姿态和内参 | 13.64 Hz |
| 头部姿态+眼动追踪 | 头部姿态矩阵(4×4)和眼动射线(3×1原点位置向量和3×1方向向量) | 28.37 Hz |
| 手部姿态 | 左右手各26个关节的姿态矩阵(4×4) | 20.01 Hz |
| 音频 | 单声道,32位浮点PCM | 16.00 kHz |
附加标注
- 用户语音手动分割和转录
- 用户和系统语音的词级时间标注
- 任务成功标注
- 后处理的眼动信息
数据获取
下载方式
数据集托管在HuggingFace平台,可通过GitHub仓库下载:
bash git clone https://github.com/microsoft/SigmaCollab cd SigmaCollab
下载选项
- 完整数据集:
wget -i download/all_sessions(约112GB) - 按模态下载:使用
all_sessions、participant_sessions和expert_sessions别名配合模态名称
技术特性
- 应用驱动和交互性质
- 为物理情境下人机协作提供新颖研究挑战
- 为AI模型提供更真实的测试环境
许可证
- 数据集:CDLA-Permissive-2.0许可证
- GitHub站点文件:MIT许可证
引用信息
如需在研究中引用本数据集,请引用相关论文:
@misc{bohus2025sigmacollabapplicationdrivendatasetphysically, title={SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration}, author={Dan Bohus and Sean Andrist and Ann Paradiso and Nick Saw and Tim Schoonbeek and Maia Stiber}, year={2025}, eprint={2511.02560}, archivePrefix={arXiv}, primaryClass={cs.HC}, url={https://arxiv.org/abs/2511.02560}, }
搜集汇总
数据集介绍

构建方式
在混合现实人机协作研究领域,SigmaCollab数据集通过开源Sigma系统采集了93组实验数据,其中85组由未经训练的参与者在AI助手引导下完成物理空间中的流程性任务,另有8组由专家执行相同任务作为参照。数据采集过程融合了头戴设备的多模态传感器,以固定采样率同步记录包括彩色与深度视觉、骨骼运动轨迹、眼球注视向量及音频流在内的多维信息,为构建真实交互场景下的协作行为图谱提供了技术基础。
特点
该数据集的核心价值体现在其多模态数据流的深度融合与精细标注。除基础传感器数据外,还包含人工标注的语音转录时序、任务完成度评估及后处理的视线投影信息。高达14.91Hz的彩色图像与28.37Hz的头部姿态数据形成了时空对齐的观测体系,而16kHz的音频通道与20.01Hz的手部关节追踪则共同构建了动态交互行为的立体表征,为研究物理空间中的细粒度协作机制创造了必要条件。
使用方法
研究者可通过克隆GitHub仓库并执行wget指令获取约112GB的完整数据集,亦可根据实验需求选择性下载特定模态的子集。数据以压缩包形式分发,解压后按会话与模态分类存储,支持对参与者会话、专家示范会话或单一模态数据的独立分析。该数据集遵循CDLA-Permissive-2.0许可协议,配套的Sigma开源系统更允许用户在相同框架下扩展数据采集,为验证算法在真实物理协作场景中的适应性提供完整技术生态。
背景与挑战
背景概述
在混合现实与人工智能融合的研究浪潮中,微软研究院于2025年推出了SigmaCollab数据集,旨在推动物理场景下人机协作的实证探索。该数据集通过开源的Sigma混合现实平台,采集了85组非专业参与者与8组专家在实体环境中执行流程化任务的交互数据,其多模态特性涵盖了视觉、听觉与运动追踪等维度。作为首个面向物理情境协作的开放数据集,它不仅填补了具身智能研究的数据空白,更为人机交互、认知计算与机器人学等领域提供了关键的基准测试资源。
当前挑战
物理场景人机协作面临双重挑战:在领域层面,需解决动态环境感知、多模态意图理解与实时决策的协同问题,例如如何通过头部姿态与手势数据准确推断用户操作意图;在构建层面,数据采集需平衡高精度传感器同步与自然交互体验,如深度相机与RGB视觉流的时间对齐难题,同时手动标注语音转录与任务成功标签亦带来了显著的人工成本。这些挑战共同凸显了开发鲁棒性协作模型对高质量多模态数据的依赖。
常用场景
经典使用场景
在混合现实环境中,SigmaCollab数据集为研究人机物理协同提供了关键支持。该数据集通过记录85组非专业参与者在AI助手引导下执行物理世界程序性任务的互动过程,构建了多模态数据框架。其经典应用体现在训练智能体理解人类在三维空间中的行为模式,包括头部姿态、手势轨迹与语音指令的同步解析,为具身智能研究提供了真实交互范本。
衍生相关工作
该数据集催生了多项具身智能领域的创新研究,例如基于多模态融合的协同决策框架开发。研究者利用其丰富的时空标注数据,构建了能够预测人类意图的视觉语言模型。开源平台Sigma进一步扩展了数据集生态,促使更多研究团队在此基础上开发新的混合现实交互范式,形成持续演进的技术闭环。
数据集最近研究
最新研究方向
在混合现实环境中人机物理协作领域,SigmaCollab数据集正推动着多模态感知与决策模型的前沿探索。该数据集通过整合头戴式设备的视觉、深度、姿态追踪与语音数据,为构建具身智能体提供了真实交互场景下的基准测试平台。当前研究聚焦于如何利用这些丰富的时空信息流来优化AI助手在复杂物理任务中的实时指导能力,特别是在未训练用户与专家示范的对比分析中揭示协作效率的关键因素。随着元宇宙与工业自动化技术的发展,此类数据集正成为解决人机协同安全性与自适应性的重要基石,为下一代交互式人工智能系统奠定数据驱动的研究基础。
以上内容由遇见数据集搜集并总结生成



