ProMQA-Assembly

Name: ProMQA-Assembly
Creator: 卡内基梅隆大学语言技术研究所, 日本国立先进工业科学技术研究所 (AIST)
Published: 2025-09-03 10:26:48
License: 暂无描述

arXiv2025-09-03 更新2025-11-24 收录

下载链接：

https://github.com/kimihiroh/promqa-assembly

下载链接

链接失效反馈

官方服务：

资源简介：

ProMQA-Assembly是一个多模态程序性问答数据集，专注于装配任务。该数据集由391个问答对组成，每个问答对都包含相应的视频片段和指令。数据集来源于Assembly101，这是一个包含用户组装玩具视频的数据集。数据集的创建过程采用了半自动化的问答标注方法，其中大型语言模型（LLM）生成候选答案，并由人工进行验证。此外，还为组装玩具任务创建了指令任务图。这些新创建的任务图用于基准测试实验，以及辅助人工在问答标注过程中的验证。数据集旨在促进程序性活动助理的进一步发展，特别是在装配领域。

ProMQA-Assembly is a multimodal procedural question answering dataset focused on assembly tasks. It comprises 391 question-answer (QA) pairs, each paired with corresponding video clips and assembly instructions. The dataset is derived from Assembly101, a dataset containing user-generated toy assembly videos. The dataset was developed via a semi-automated QA annotation workflow, where large language models (LLMs) generate candidate answers that are subsequently validated by human annotators. Additionally, instruction task graphs were constructed for the toy assembly tasks. These newly developed task graphs serve two purposes: supporting benchmarking experiments and aiding human annotators during the QA annotation phase. This dataset is intended to facilitate further advancements in procedural activity assistants, especially within the assembly domain.

提供机构：

卡内基梅隆大学语言技术研究所, 日本国立先进工业科学技术研究所 (AIST)

创建时间：

2025-09-03

搜集汇总

数据集介绍

构建方式

在装配活动理解领域，ProMQA-Assembly数据集的构建采用了半自动化的标注策略。研究团队从Assembly101数据集中筛选出包含完整注释的多视角装配录像，基于动作时序分割生成候选样本。通过集成细粒度动作标签的提示模板，利用大型语言模型生成多样化的问答对候选，再经过人工严格验证其有效性、多模态性和程序性，最终形成391个高质量问答对。

特点

该数据集的核心特点体现在多模态程序性问答的深度融合。其391个问答对要求模型同时理解装配说明书的任务图结构与真人操作录像的视觉序列，覆盖过程级和步骤特定型两大类问题。数据集创新性地引入包含78种玩具的指令任务图，规模达先前工作的三倍，并通过多视角视频和部件图像构建了立体化的指令表征体系。这种设计能有效评估模型在在线式装配辅助场景中的多模态推理能力。

使用方法

使用本数据集时，研究者需将任务图以DOT格式编码，配合部件图像和均匀采样的视频帧作为多模态输入。模型需要根据当前操作进度和指令依赖关系，对自然语言问题生成开放词汇的答案。评估采用LLM即评判员机制，通过三元评分体系衡量答案质量。该流程模拟了真实装配场景中用户即时提问、系统综合判断的交互模式，为程序性活动理解研究提供标准化测试基准。

背景与挑战

背景概述

ProMQA-Assembly数据集由卡内基梅隆大学语言技术研究所与日本产业技术综合研究所于2025年联合发布，聚焦于装配任务中的多模态程序性问答研究。该数据集旨在解决现实场景中装配助手系统的评估需求，通过整合人类活动录像与装配说明书，构建了391组问答对，涵盖多视角视频与任务图结构。其核心研究在于推动多模态模型对程序性活动的深度理解，特别是在工业制造与日常DIY场景中的应用潜力，为智能辅助系统的发展提供了重要基准。

当前挑战

在领域问题层面，该数据集需应对装配任务中动态步骤依赖关系的建模挑战，包括错误动作识别、步骤顺序验证及跨模态推理。构建过程中面临标注复杂性，需通过半自动化方法结合大语言生成与人工验证，并引入细粒度动作标签以提升问题多样性；同时，多视角视频与任务图的协同标注要求高精度的人工介入，确保问答对在视觉与文本模态间的一致性。

常用场景

经典使用场景

在装配任务辅助系统的开发中，ProMQA-Assembly数据集被广泛应用于评估多模态模型对程序性活动的理解能力。该数据集通过391个问答对，结合多视角视频记录与装配说明书的任务图，模拟真实场景中用户基于视觉输入和文本指导的交互过程。其经典使用场景包括在线式问题回答，系统需根据用户已执行动作序列和预设指令，动态判断步骤顺序、检测错误并提供实时反馈，例如识别零件安装位置错误或步骤遗漏问题。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态任务图自动构建方法、程序性活动的层次化错误检测框架，以及多模态大语言模型在装配领域的适应性优化。例如，研究者利用其标注的任务图开发了基于图神经网络的步骤依赖关系预测模型，同时启发了对视觉-语言模型在长视频理解中注意力机制的改进。这些工作进一步拓展至工业质检、生物实验操作等垂直领域，形成了程序性活动理解的技术生态链。

数据集最近研究