qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections

Name: qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections
Creator: qualcomm
Published: 2026-05-01 11:11:13
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含带有时间戳的烹饪视频和反馈，用于任务指导。每个视频对应一行数据，提供对齐的话语文本、话语类型和时间戳列表。数据集的具体细节包括发布文件、统计数据、文本类型计数、数据收集过程、数据格式、使用方法、许可证信息和引用说明。

This dataset contains cooking videos with timestamped instruction and feedback for task guidance. Each row corresponds to one video and provides aligned lists of utterance text, utterance type, and timestamp. The dataset details include release files, statistics, text type counts, data collection process, data format, usage, license information, and citation instructions.

提供机构：

qualcomm

搜集汇总

数据集介绍

构建方式

该数据集源自高通研究院，聚焦于交互式烹饪场景中的流式错误纠正任务。数据集通过采集40段第一人称烹饪视频，由专业标注人员对视频中的人机交互对话进行逐帧标注，生成与时间轴精确对齐的文本指令与反馈，共包含1,597条标注文本，涵盖指令、成功确认、反馈、指令澄清、用户提问及用户评论六类话语类型。

特点

数据集独特之处在于其流式交互设计，不仅提供常规的烹饪指令（562条）与成功提示（560条），还特别强调了错误发生时的实时反馈（397条）以及指令澄清等罕见交互类型，为视频大语言模型在动态任务中的即时纠错能力评估提供了稀缺的测试基准。每条样本均以视频ID为索引，同时存储多段文本、对应类型及其精确时间戳，支持细粒度的多模态对齐分析。

使用方法

研究人员可通过HuggingFace Datasets库直接加载数据，仅提供test分割用于评测。加载后每条数据包含video_id、texts、text_types和text_timestamps四个字段，其中文本与时间戳以列表形式对齐存储，视频文件则按<video_id>.MP4的命名约定存放于videos目录下。典型使用流程为：加载数据集后遍历样本，利用时间戳信息将文本反馈与视频帧进行同步，从而评估模型在时间敏感任务中的流式理解与干预能力。

背景与挑战

背景概述

在交互式任务引导领域，实时纠正用户在执行复杂操作（如烹饪）时产生的错误，是构建智能助手面临的核心挑战。由高通AI研究团队于2026年提出的Qualcomm Interactive Cooking Dataset（Ego Mistake Corrections Benchmark），旨在为视频大语言模型（Video LLMs）提供流媒体错误干预的标准化评估基准。该数据集包含40段第一人称烹饪视频，配有1,597条人工标注的指令、反馈及成功确认，覆盖了从预热烤箱到具体操作的完整任务链。其独特价值在于，通过时间戳精确对齐的反馈文本，推动模型在错误发生时实时提供纠正性指导，为人机协作中的动态任务学习开辟了新方向。

当前挑战

该数据集所解决的领域问题在于，现有视频理解模型多聚焦于动作识别或事故事件检测，缺乏对实时操作错误进行流式干预的能力。具体挑战包括：1）如何将离散的纠正指令与连续视频流中的关键错误瞬间精确对齐，以避免反馈滞后；2）视频文本数据规模较小（仅40个样本），需在有限标注下确保模型泛化性；3）人工标注的反馈类型多样（如指令澄清、用户问题），复杂度高，模型需同时理解多模态上下文和意图层次。这些挑战既考验模型在动态场景下的时序推理能力，也对数据构建的标注一致性和生态位设计提出了严苛要求。

常用场景

经典使用场景

在智能交互与视频理解交叉领域中，该数据集为评估大语言模型在流式视频场景下的实时干预能力提供了基准。研究人员可借助其中包含的烹饪视频、时间戳标注的指令与反馈文本，训练或评测模型在视频播放过程中同步理解用户行为、检测错误并生成适当纠正指令的能力。例如，模型需在观察到用户操作偏离预期步骤时，及时给出‘请先将烤箱预热至350华氏度’之类的实时反馈，这一过程模拟了人类教练在旁指导的互动模式。

衍生相关工作

该数据集源自Qualcomm AI Research团队在流式视频干预领域的前沿探索，其伴随论文《Streaming Interventions: Can Video LLMs Correct Mistakes as They Occur?》首次系统提出了流式纠错评价框架。后续相关工作可包括基于该基准开发的时序动作定位与错误检测联合模型、融合视觉与文本跨模态对齐的实时反馈生成网络，以及扩展至多轮交互的流式对话系统，进一步推动视频理解与即时干预技术的协同进化。

数据集最近研究