DPIP Lego Dataset

Name: DPIP Lego Dataset
Creator: 布兰迪斯大学; 科罗拉多州立大学
Published: 2026-03-06 02:22:55
License: 暂无描述

arXiv2026-03-06 更新2026-03-07 收录

下载链接：

https://doi.org/10.5281/zenodo.18626419

下载链接

链接失效反馈

官方服务：

资源简介：

DPIP Lego数据集由布兰迪斯大学和科罗拉多州立大学联合创建，旨在研究多模态、多参与者在知识不对称情况下的协作任务。该数据集包含10组四人协作完成建筑任务的录音录像数据，标注了语音、手势和动作等多模态信息，数据来源于实验室内受控环境下的任务执行。数据集通过Unity游戏引擎生成目标结构，并记录参与者的多模态交互过程，应用于研究共同基础构建、多模态通信和知识不对称下的协作问题。

The DPIP Lego Dataset was jointly created by Brandeis University and Colorado State University, with the goal of investigating collaborative tasks involving multiple participants and multimodal interactions under conditions of knowledge asymmetry. This dataset includes audio and video recordings from 10 groups of four participants collaborating to complete building tasks, with multimodal annotations such as speech, gestures, and actions. All data was collected during task execution in a controlled laboratory environment. The target structures are generated via the Unity game engine, and the dataset records the multimodal interaction processes of the participants. It is applied to research on common ground construction, multimodal communication, and collaborative problems under knowledge asymmetry.

提供机构：

布兰迪斯大学; 科罗拉多州立大学

创建时间：

2026-03-06

搜集汇总

数据集介绍

构建方式

在协作构建任务的研究背景下，DPIP Lego数据集的构建采用了精心设计的实验范式。该数据集通过四人小组的协作任务收集，其中三位“指导者”各自持有目标结构的不同二维侧视图作为私有信息，而唯一的“建造者”则负责操作乐高积木进行实体构建。数据采集过程使用三台微软Kinect Azure摄像头从多角度捕捉共处一室的交互场景，并辅以桌面麦克风进行音频录制。所有模态数据——包括语音、手势和动作——均经过人工双重标注，并实现了跨模态的时间对齐，从而形成了一个包含10组完整交互记录的高质量多模态语料库。

特点

该数据集的核心特征在于其独特地融合了多模态、多参与方交互与认知不对称性三大挑战。数据集不仅完整记录了语音转录、手势语义和积木操作动作，更通过精细的标注将各模态传达的命题内容进行了符号化表征与对齐。尤为突出的是，它模拟了真实团队协作中成员背景与专业知识各异的场景，迫使参与者必须通过语言、手势和动作外化其私有视觉知识，并在此过程中动态协商与建立共同认知基础。这种设计为研究多模态沟通、信念动态追踪以及共同基础构建提供了前所未有的实证基础。

使用方法

该数据集为评估人工智能系统在复杂协作场景下的认知能力提供了基准。研究者可利用其对齐的多模态标注，系统考察大型语言模型或基于动态认知逻辑的推理管道在部分可观测条件下的表现。具体而言，数据集支持多种实验范式：例如，仅根据动作序列预测结构状态，或整合所有模态信息来推断小组的共同信念。通过将模型预测与人工标注的“共同基础”及最终实体结构进行对比，能够定量评估模型在追踪任务进展与信念状态两方面的能力，从而揭示当前先进系统在理解多模态、多参与方交互方面面临的深层挑战。

背景与挑战

背景概述

在人工智能与多模态交互研究领域，建立共同基础——即共享信念与相互认可事实的集合——是协作的核心，但在多模态、多参与者的情境下，尤其是在参与者持有不同信息的认知不对称条件下，对现有系统构成显著挑战。DPIP Lego数据集由布兰代斯大学与科罗拉多州立大学的研究团队于2026年创建，旨在通过分布式部分信息拼图这一协作构建任务，激发认知不对称条件下的丰富多模态交流。该数据集收录了四参与者小组的互动记录，涵盖语音、手势与动作等多种模态，并进行了时间对齐标注，为核心研究问题——即多模态、多参与者、认知不对称协作中的共同基础构建与信念动态推理——提供了实证基础，对推动对话系统、具身智能及多智能体协作等领域的发展具有重要价值。

当前挑战

DPIP Lego数据集所针对的领域挑战在于多模态、多参与者协作中共同基础的动态建模与跟踪。具体而言，系统需从分散的语音、手势和动作信息中，推断并整合参与者的私有信念，以形成共享的任务状态表征，这要求模型具备跨模态融合、时空推理及信念状态演化的复杂能力。在构建过程中，研究团队面临多重技术挑战：首先，多模态数据的同步标注与对齐需克服手势识别的主观性、动作语义的精确解析以及跨模态命题内容的一致化表示等难题；其次，确保标注可靠性需应对不同标注者对姿态事件识别与解释的差异，这反映在姿态标注的交互标注者一致性相对较低；此外，在部分视角遮挡条件下，对三维空间关系的准确标注亦存在固有不确定性。这些挑战共同凸显了在真实物理协作环境中构建高质量多模态基准数据的复杂性。

常用场景

经典使用场景

在协作人工智能与多模态交互研究领域，DPIP Lego数据集为探究知识不对称情境下的共同基础构建提供了经典实验平台。该数据集通过乐高积木协作搭建任务，精确模拟了多方参与者各自持有部分空间信息的场景，要求三位指导者必须通过语言、手势和动作等多种模态与建造者进行协调，以完成统一结构的重建。这一设计天然地引发了丰富的多模态交流，使得研究者能够系统分析在部分可观测条件下，人类如何通过动态的信念协商与信息整合来建立共享理解。数据集的时间对齐多模态标注，为深入解析言语、手势与行动在共同基础形成中的互补作用奠定了坚实基础。

解决学术问题

DPIP Lego数据集的核心贡献在于系统性地解决了多模态、多方、共处且知识不对称协作环境中的共同基础建模难题。传统研究往往侧重于单一模态或完全信息共享的设定，难以捕捉真实协作中信息分布不均所带来的复杂性。该数据集通过精心设计的分布式部分信息谜题，为计算语言学、人机交互与多智能体系统等领域提供了研究以下关键问题的宝贵资源：如何形式化并追踪动态演变的群体信念状态；多模态信号（如指示性手势、言语描述与物理操作）如何协同传递命题内容并更新共享知识；以及当前先进的人工智能系统（如大语言模型）在应对此类富含信念动态的协作任务时所面临的能力边界。其标注体系直接支持基于动态认知逻辑的推理，推动了对于协作中认知对齐机制的更精细理解。

衍生相关工作

DPIP Lego数据集的发布，激发并支撑了一系列围绕多模态共同基础追踪与协作推理的衍生研究。基于其丰富的标注数据，后续工作探索了不同的建模范式：一方面，研究评估了诸如GPT-5、Qwen等大语言模型在仅凭动作序列或多模态对齐注释下，预测任务进展与群体信念状态的能力，揭示了当前模型在长程、多轮信念推理上的局限。另一方面，受该数据集启发，研究者构建了基于动态认知逻辑的公理化处理流程，以形式化规则增量式地推断共同基础，为可解释的信念追踪提供了新路径。此外，该任务设定也促进了如TRACE（实时多模态共同基础追踪）等系统的发展，旨在实现对共处对话中信念动态的在线监测。这些工作共同深化了我们对人机混合团队中智能体如何理解并参与复杂协作的认识。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集