SIGMACOLLAB

Name: SIGMACOLLAB
Creator: 微软研究院,埃因霍温科技大学
Published: 2025-11-04 21:30:15
License: 暂无描述

arXiv2025-11-04 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/sigmacollab

下载链接

链接失效反馈

官方服务：

资源简介：

SIGMACOLLAB是一个用于研究物理情境下人机协作的数据集，由85个交互式会话组成，其中未经过培训的参与者通过与混合现实辅助AI应用进行交互，在物理世界中执行程序性任务。数据集包含丰富的多模态数据流，如参与者与系统的音频、头戴式设备的自传式相机视图、深度图、头部、手部和凝视跟踪信息，以及事后进行的额外注释。虽然数据集在规模上相对较小（约14小时），但其以应用为导向的交互性质为人类-AI协作带来了新的研究挑战，并为该领域各种AI模型提供了更真实的测试环境。SIGMACOLLAB旨在通过促进严格的应用驱动研究，推动流畅的人机协作，并缩小实验室基准与现实世界性能之间的差距。

SIGMACOLLAB is a dataset for studying human-computer collaboration in physical scenarios. It consists of 85 interactive sessions, where untrained participants perform procedural tasks in the physical world by interacting with mixed-reality AI-aided applications. The dataset contains rich multimodal data streams, including audio between participants and the system, egocentric camera views from head-mounted devices, depth maps, head, hand, and gaze tracking data, as well as additional post-hoc annotations. Although the dataset is relatively small in scale (approximately 14 hours in duration), its application-oriented interactive nature brings novel research challenges for human-AI collaboration and provides more realistic test environments for various AI models in this domain. SIGMACOLLAB aims to promote seamless human-computer collaboration by facilitating rigorous application-driven research, and bridge the gap between laboratory benchmarks and real-world performance.

提供机构：

微软研究院,埃因霍温科技大学

创建时间：

2025-11-04

搜集汇总

数据集介绍

构建方式

在混合现实任务辅助研究领域，SIGMACOLLAB数据集通过应用驱动方法构建，利用SIGMA开源系统引导未受训参与者在物理环境中完成八类程序性任务。数据采集配置了HoloLens 2头戴设备的多模态传感器，以15Hz帧率捕获彩色相机视图，5Hz深度图像，以及30Hz头部姿态与20Hz手部关节跟踪信息，同时整合语音活动检测与Whisper语音识别技术，最终形成85个有效交互会话约14小时的多模态数据流。

使用方法

研究者可通过GitHub公开仓库获取数据集，利用其多模态流数据开发物理情境下的协作模型。该资源支持时序动作识别、视觉语言 grounding、用户意图分类等任务，尤其适用于评估模型在开放域交互中的泛化能力。使用时应结合SIGMA系统架构进行端到端测试，通过分层划分策略按任务类型或参与者ID构建训练验证集，并利用标注的凝视信号与任务完成状态标签进行细粒度行为分析。

背景与挑战

背景概述

SIGMACOLLAB数据集由微软研究院与埃因霍温理工大学于2025年联合发布，旨在推动物理情境下的人机协作研究。该数据集聚焦于混合现实环境中智能体与人类在物理任务执行中的交互问题，通过85个会话记录未受训参与者在AI辅助下完成装订笔记本、制作鸡尾酒等八类程序性任务。其创新性在于采用应用驱动的数据采集范式，突破了传统非交互式数据集的局限，为理解人类认知状态与实时协作机制提供了真实场景支撑，对人工智能、计算机视觉及人机交互领域的生态效度研究具有重要推动作用。

当前挑战

该数据集致力于解决物理情境协作中动态环境感知与多模态协调的核心难题，具体体现为对用户意图识别、实时对话管理及任务状态追踪的高精度要求。在构建过程中面临多重挑战：需同步整合头戴设备采集的视觉、深度、语音、手势与注视追踪等异构数据流；针对参与者自发性对话片段与专业术语交织的语音识别误差需进行人工校正；同时需克服混合现实系统在实时流传输与多传感器数据对齐时的延迟问题，确保14小时交互数据在时空维度的一致性。

常用场景

经典使用场景

在混合现实任务辅助研究领域，SIGMACOLLAB数据集为物理情境下的人机协作提供了典型实验平台。该数据集通过85个真实交互会话，记录了参与者在混合现实设备引导下完成如制作按钮、安装滑板等程序性任务的过程，其多模态数据流包括第一人称视角视频、深度信息、头部与手部追踪等，为研究实时协作中的视觉感知与行为协调问题奠定了数据基础。

解决学术问题

该数据集有效应对了物理情境人机交互中的核心学术挑战，包括动态环境下的意图识别、多模态信号融合与时序协调问题。通过捕捉真实任务执行中的语言片段、自我对话及非连续交互模式，为突破传统‘乒乓式’交互局限提供了实证依据，推动了具身智能在开放域环境中的认知推理与自适应协作研究。

实际应用

在工业培训与远程协作场景中，该数据集支撑了智能辅助系统的实际部署。其记录的物理操作流程与交互异常数据，可用于开发能主动检测用户困惑状态、提供实时纠错的增强现实指导系统，显著提升装配线作业、设备维护等场景的操作效率与安全性。

数据集最近研究