PROASSIST

Name: PROASSIST
Creator: Meta
Published: 2025-06-06 17:23:29
License: 暂无描述

arXiv2025-06-06 更新2025-06-11 收录

下载链接：

https://pro-assist.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

PROASSIST 是一个大规模的合成对话数据集，由 Meta 公司创建，包含 30,135 个对话，跨越 479 小时的视频，涵盖烹饪、物体操作、组装和实验室等领域。该数据集通过自动化方法从标注好的第一人称视频数据集中合成对话，并使用最先进的大型语言模型生成逼真的助手-用户交互。PROASSIST 的创建旨在为开发能够实时提供任务指导的主动 AI 助手奠定基础。

PROASSIST is a large-scale synthetic dialogue dataset created by Meta. It contains 30,135 dialogues spanning 479 hours of video, covering domains including cooking, object manipulation, assembly, and laboratory settings. This dataset synthesizes dialogues from annotated first-person video datasets via automated methods, and uses state-of-the-art large language models to generate realistic assistant-user interactions. The creation of PROASSIST aims to lay a foundation for developing proactive AI assistants that can provide real-time task guidance.

提供机构：

Meta

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

PROASSIST数据集通过创新的数据合成流程构建，整合了来自六个公开的自我中心视角视频数据集（Ego4D-Goalstep、EpicKitchen等）的标注信息。研究团队采用多阶段生成策略：首先基于视频描述生成任务目标和步骤清单，随后通过大型语言模型模拟三种用户行为模式（沉默型、适度交流型、活跃对话型）生成对话。为确保时序对齐，采用分块生成与精修机制处理长视频，并运用自动质量评估体系过滤低质量数据，最终形成包含30,135段对话的大规模跨领域数据集。

特点

该数据集的核心特点体现在其多模态属性和任务导向性上，涵盖烹饪、物品组装、实验室操作等四大领域，平均每段视频伴随16.1个单词的指导性对话。独特之处在于标注了助理行为的主动性（主动引导/被动响应）和意图类型（指导、纠错等），并包含动态生成的进度摘要。与人工采集数据相比，合成对话在指导准确性和自然度方面表现更优，同时通过严格的自动评估与人工验证，确保了时序对齐精度（误差<1.5秒）和步骤覆盖率（F1>0.67）。

使用方法

PROASSIST支持两种主要应用范式：在知识非依赖模式下，模型需实时解析视频流生成指导；在知识增强模式下，可结合给定任务流程（如菜谱）进行条件响应。评估时推荐采用双轨制指标：基于语句匹配的成对评估衡量时序与内容准确性，辅以LLM-as-Judge框架从正确性、时效性等四个维度进行整体评分。对于模型开发，建议采用负帧下采样（ρ=0.1）处理类别不平衡，并利用迭代进度摘要技术处理长视频序列，最佳响应阈值θ需通过验证集调参确定（0.2-0.4区间）。

背景与挑战

背景概述

PROASSIST数据集由Meta与密歇根大学的研究团队于2025年提出，旨在解决感知任务引导中实时对话生成的挑战。该数据集基于六种带标注的自我中心视角视频（如Ego4D、EpicKitchens等），通过自动化流程合成了30,135段跨烹饪、物体操作等领域的对话。其创新性在于利用大语言模型生成符合视频时序的专业助手指令，并配套开发了自动评估指标，为构建实时多模态交互系统提供了关键资源。

当前挑战

该领域面临双重挑战：在问题层面，需同步处理流式视频输入与多轮对话的时序对齐，同时解决长时任务中的上下文建模难题；在构建层面，现有标注视频的领域覆盖有限，且合成对话需平衡语义准确性与时序精确性。具体包括：1) 对话生成模型需动态决定响应时机与内容；2) 长视频导致LLM上下文窗口溢出；3) 说话决策帧的极端类别不平衡（沉默帧占比过高）。

常用场景

经典使用场景

PROASSIST数据集在实时感知任务指导系统中具有广泛的应用场景，特别是在需要基于流式自我中心视频生成对话的领域。该数据集通过合成大规模多领域对话，为开发能够处理长时间视频输入并提供及时、上下文相关指导的AI助手提供了重要支持。其典型应用包括烹饪指导、物体操作、组装任务和实验室操作等需要逐步指导的场景。

解决学术问题

PROASSIST数据集解决了感知任务指导领域的两大关键学术问题：缺乏大规模多样化训练数据和可扩展的评估框架。通过自动化合成对话的方法，该数据集克服了传统Wizard-of-Oz设置成本高、领域受限的局限性，为研究实时视频到对话生成任务提供了标准化基准。同时，其配套的自动评估指标为模型开发提供了高效可靠的质量评估手段。

衍生相关工作

基于PROASSIST数据集，研究者们已开展多项衍生工作，包括改进的在线视频处理架构、长时程任务进度跟踪技术以及响应时机决策算法。这些工作扩展了多模态大语言模型在流式视频输入下的应用边界，为开发更强大的实时任务指导系统奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集