sigmacollab

Name: sigmacollab
Creator: Microsoft
Published: 2025-11-04 08:22:06
License: 暂无描述

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/microsoft/sigmacollab

下载链接

链接失效反馈

官方服务：

资源简介：

SigmaCollab是一个支持人机物理协作研究的数据集，包含85个未经训练的参与者在混合现实辅助AI代理的引导下执行物理世界中的程序性任务的会话，以及8个专家执行相同任务的会话。数据集由多模态数据流组成，包括音频、视频、深度图和追踪信息等，旨在促进人机协作领域的研究。

提供机构：

Microsoft

创建时间：

2025-10-21

原始信息汇总

SigmaCollab数据集概述

数据集简介

SigmaCollab是一个支持人机物理协作研究的数据集，包含85个由未经训练参与者在混合现实AI助手指导下执行物理世界程序性任务的会话，以及8个专家执行相同任务的会话。

数据集详情

基本描述

开发机构：微软研究院
语言：英语
许可证：CDLA-Permissive-2.0
数据规模：93个会话（85个普通参与者+8个专家）

数据来源

代码仓库：https://github.com/microsoft/SigmaCollab
研究论文：https://arxiv.org/abs/2511.02560

多模态数据流

数据流类型	技术规格	平均帧率
RGB摄像头视图	896×504像素@24bpp，含相机位姿和内参	14.91 Hz
深度摄像头视图	320×288像素@16bpp，含相机位姿和内参	4.98 Hz
左前灰度摄像头视图	640×480像素@8bpp，含相机位姿和内参	13.64 Hz
右前灰度摄像头视图	640×480像素@8bpp，含相机位姿和内参	13.64 Hz
头部位姿+眼动追踪	头部位姿矩阵(4×4)和眼动射线(3×1原点位置向量和3×1方向向量)	28.37 Hz
手部位姿	左右手各26个关节的位姿矩阵(4×4)	20.01 Hz
音频	单声道，32位浮点PCM	16.00 kHz

标注信息

用户语音的手动分割和转录
用户和系统语音的词级时间标注
任务成功标注
后处理的眼动信息（如眼动点在各个摄像头图像中的投影）

应用场景

作为测试平台，评估各种AI模型在交互式应用环境中的泛化能力和有效性，弥合实验室基准与现实世界性能之间的差距。

数据收集

环境：微软研究院实验室环境
参与者：21名参与者（12名男性，9名女性），主要为46-55年龄段
任务类型：程序性物理任务（如装订笔记本、安装滑板轮子等）

局限性

实验室环境收集，可能无法反映真实世界部署的全部复杂性
任务多样性有限
参与者均来自微软研究院员工群体

引用信息

bibtex @misc{bohus2025sigmacollabapplicationdrivendatasetphysically, title={SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration}, author={Dan Bohus and Sean Andrist and Ann Paradiso and Nick Saw and Tim Schoonbeek and Maia Stiber}, year={2025}, eprint={2511.02560}, archivePrefix={arXiv}, primaryClass={cs.HC}, url={https://arxiv.org/abs/2511.02560}, }

搜集汇总

数据集介绍

构建方式

在混合现实人机协作研究领域，SigmaCollab数据集通过开放式混合现实应用Sigma系统构建而成。研究团队在微软研究院实验室内招募21名参与者，借助头戴设备采集多模态数据流，包括视觉感知、空间定位和语音交互等信息。数据采集过程遵循严格的伦理审查标准，通过实时任务引导机制记录参与者在执行实体任务时的完整交互过程，并辅以专家对照实验作为基准参考。

特点

该数据集囊括85组非专业用户与8组专家用户的完整协作会话，呈现丰富的多模态数据特征。其核心价值在于同步采集了第一视角RGB影像、深度感知数据、双手运动轨迹、头部姿态与视线追踪等七类数据流，并融合了人工标注的语音转录与任务完成度评估。这种立体化的数据架构为研究物理空间中的实时人机协作提供了前所未有的细粒度观察维度。

使用方法

研究者可通过官方GitHub仓库获取完整的原始数据与标注文档，利用CDLA-Permissive-2.0许可协议开展二次研究。该数据集适用于评估交互式场景下AI模型的泛化能力，特别适合用于开发物理空间任务指导、多模态行为分析等前沿研究方向。建议结合开源Sigma系统进行对比实验，以验证算法在真实混合现实环境中的适应性表现。

背景与挑战

背景概述

随着混合现实与人工智能技术的深度融合，物理空间中人机协作研究逐渐成为人机交互领域的前沿方向。SigmaCollab数据集由微软研究院于2025年创建，旨在通过85组真实人机协作会话数据，推动物理情境下智能体与人类协同完成程序性任务的研究。该数据集通过开源Sigma系统采集多模态数据流，包括视觉感知、动作追踪与语音交互等维度，为人机协作模型的开发与验证提供了实证基础，显著促进了具身智能与增强现实技术的交叉研究进展。

当前挑战

在物理情境人机协作领域，传统模型常面临环境动态感知与实时决策的耦合难题。SigmaCollab构建过程中需克服多传感器数据同步与异构模态融合的技术瓶颈，其实验室环境采集模式亦存在生态效度局限。数据集所涵盖的任务类型与参与者背景相对集中，可能影响模型在复杂现实场景中的泛化能力，这些因素共同构成了该领域从理论验证到实际应用的关键挑战。

常用场景

经典使用场景

在混合现实人机协作研究领域，SigmaCollab数据集通过记录85组真实人机交互实验，为探索物理环境下的程序性任务执行提供了典型范例。该数据集以装配滑板车轮、装订笔记本等具体任务为背景，完整呈现了非专业用户在AI智能体引导下完成操作的多模态交互过程，其丰富的头部姿态、手势追踪与眼动数据为理解人类在混合现实环境中的行为模式奠定了坚实基础。

解决学术问题

该数据集有效解决了传统人机交互研究中虚拟环境与物理世界脱节的核心难题。通过同步采集第一视角视觉、深度感知与空间定位数据，研究者能够深入分析人类在物理空间执行任务时的认知负荷与协作机制。其标注精细的语音转录与任务完成度评估，为构建具有情境感知能力的辅助系统提供了关键验证基准，显著推进了具身智能在真实场景中的适应性研究。

衍生相关工作

以SigmaCollab为基石的研究已催生多个创新方向，其中基于注意力机制的协作策略优化模型成为典型代表。研究者通过分析数据集中眼动与手势的时空关联，开发出具有预测能力的交互代理系统。该数据集还促进了跨模态融合算法的突破，如将语音指令与视觉感知相结合的上下文理解框架，为构建更自然流畅的人机协作生态系统提供了理论依据与实践范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集