qualcomm-interactive-cooking-dataset-ego-mistake-corrections

Name: qualcomm-interactive-cooking-dataset-ego-mistake-corrections
Creator: Qualcomm
Published: 2026-05-01 19:11:13
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections

下载链接

链接失效反馈

官方服务：

资源简介：

Qualcomm交互式烹饪数据集是一个包含烹饪视频的多模态数据集，旨在为任务指导提供带时间戳的指令和反馈。每个视频对应一个数据行，包含对齐的文本、文本类型和时间戳列表。数据集包含40个视频，共计1,597条标注，标注类型包括指令（Instruction）、成功（Success）、反馈（Feedback）等。数据格式为JSON，每个条目包含视频ID、文本列表、文本类型列表和时间戳列表。视频文件以MP4格式存储，路径遵循videos/<video_id>.MP4的约定。该数据集适用于视频文本到文本的任务，如流式错误干预基准测试。数据集仅用于研究目的，使用时需遵守Qualcomm Interactive Cooking Dataset的许可条款。

The Qualcomm Interactive Cooking Dataset is a multimodal dataset containing cooking videos, designed to provide timestamped instructions and feedback for task guidance. Each video corresponds to a data row containing aligned text, text types, and a list of timestamps. The dataset includes 40 videos with a total of 1,597 annotations, including types such as Instruction, Success, and Feedback. The data format is JSON, with each entry containing a video ID, a list of texts, a list of text types, and a list of timestamps. Video files are stored in MP4 format, with paths following the convention videos/<video_id>.MP4. This dataset is suitable for video-to-text tasks, such as streaming error intervention benchmarks. The dataset is for research purposes only and must be used in compliance with the Qualcomm Interactive Cooking Dataset license terms.

提供机构：

Qualcomm

创建时间：

2026-04-30

原始信息汇总

数据集概述

数据集名称: Qualcomm Interactive Cooking Dataset: Ego Mistake Corrections Benchmark

数据集地址: https://huggingface.co/datasets/qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections

数据集语言: 英语

任务类型: 视频-文本到文本（video-text-to-text）

标签: streaming, video, text, multimodal, cooking

注释来源: 专家生成

多语言性: 单语言

来源数据集: 原创

数据集规模: 1K < n < 10K

数据集内容

包含烹饪视频，每个视频带有时间戳的指令和反馈，用于任务指导。
每一行对应一个视频，提供对齐的文本列表、文本类型列表和时间戳列表。

数据集统计

总视频数：40
总注释数：1,597
文本类型分布：
- Instruction：562
- Success：560
- Feedback：397
- Instruction-Clarification：26
- User-Question：22
- User-Comment：30

数据格式

annotations.json 中的每一行具有以下 JSON 结构：

json { "video_id": "GX010021", "texts": [ "Lets first preheat the oven to 350 degrees Fahrenheit.", "Great Job!" ], "text_types": [ "Instruction", "Success" ], "text_timestamps": [ 4.418, 15.982 ] }

video_id：视频标识符
texts：文本列表
text_types：文本类型列表
text_timestamps：文本对应的时间戳（浮点数，秒）

视频文件路径约定：videos/<video_id>.MP4

数据集分割

仅有一个分割：test
test 分割包含 40 个样本

数据集配置

配置名称：default
数据文件：annotations/annotations.json
特征：
- video_id：字符串
- texts：字符串序列
- text_types：字符串序列
- text_timestamps：浮点数序列

使用示例

python from datasets import load_dataset

ds = load_dataset("qualcomm/qualcomm-interactive-cooking-dataset-ego-mistake-corrections", split="test")

row = ds[0] video_id = row["video_id"] texts = row["texts"] text_types = row["text_types"] text_timestamps = row["text_timestamps"]

Video path convention:

f"videos/{video_id}.MP4"

数据集许可

仅用于研究目的。
使用需遵守 Qualcomm Interactive Cooking Dataset 的许可条款，详见 LICENSE.pdf。

引用信息

bibtex @inproceedings{streamcooking, title = {Streaming Interventions: Can Video LLMs Correct Mistakes as They Occur?}, author = {Apratim Bhattacharyya and Shweta Mahajan and Sanjay Haresh and Risheek Garrepalli and Rajeev Yasarla and Litian Liu and Reza Pourreza and Roland Memisevic}, booktitle = {arXiv}, year = {2026} }

搜集汇总

数据集介绍

构建方式

该数据集由Qualcomm AI Research构建，聚焦于交互式烹饪场景下的流式错误干预。数据集包含40段第一人称烹饪视频，每段视频均配有经过人工精确标注的时间戳、文本内容及其类型。标注过程由领域专家手动完成，确保每条指令、反馈、成功确认等文本与视频时间轴严格对齐。最终发布数据共包含1,597条标注，涵盖六种文本类型：Instruction、Success、Feedback、Instruction-Clarification、User-Question和User-Comment。数据集以JSON格式存储标注信息，视频文件以MP4格式独立存放，整体结构清晰，便于研究者按需调用。

特点

该数据集的核心特点在于其流式交互标注设计，模拟了真实烹饪过程中的人机协同指导场景。数据不仅包含常规步骤指令，还引入了纠正性反馈和用户交互语句，为视频语言模型在动态任务中的实时错误检测与干预能力提供了独特的评估基准。视频为第一人称视角，增强了任务的沉浸感和实际应用价值。此外，标注类型丰富，特别是Feedback和Instruction-Clarification类别的存在，使数据集能够支撑细粒度的多模态对话理解研究。总视频数虽少，但标注密度高，适合用于少样本学习或评测场景。

使用方法

用户可通过HuggingFace Datasets库直接加载数据，调用load_dataset函数并指定数据集名称与test分割即可获取数据。每条数据包含video_id、texts、text_types和text_timestamps四个字段，分别对应视频标识、文本序列、文本类型序列及时间戳序列。视频文件需按约定路径'videos/<video_id>.MP4'访问。该数据集仅限研究用途，使用时需遵守Qualcomm Interactive Cooking Dataset的许可条款。研究者可结合预训练视频语言模型，利用流式输入方式对模型进行错误干预能力的评估与微调。

背景与挑战

背景概述

在交互式人工智能领域，实时任务引导与错误纠正的协同机制是迈向更自然人机协作的关键。高通AI研究团队于2026年发布的本数据集，聚焦于流媒体烹饪场景下，视频大语言模型对用户操作错误的即时干预能力。数据集包含40段第一人称烹饪视频，配备1,597条人工标注的指令、反馈与成功确认文本，时间戳精确对齐视频帧。这一资源为难例研究提供了前所未有的细粒度标注，推动了视频理解从被动描述向主动指导的范式转变，为构建具备实时纠错能力的交互系统奠定了基准。

当前挑战

当前领域面临的核心挑战在于如何构建能实时检测并纠正用户操作错误的视觉语言模型。本数据集所应对的领域问题包括：烹饪任务中步骤顺序错乱、食材误用等常见错误的即时识别与自然语言反馈生成。数据构建过程中，挑战集中于长达数小时的连续第一人称视频中，精准定位错误发生时刻并生成上下文感知的纠正指令，同时确保标注专家对反馈类型的统一判别。此外，稀疏的错误事件（仅397条反馈标注）与密集的正常指令流之间的不平衡，对模型的实时异常检测能力提出了严苛要求。

常用场景

经典使用场景

在视频理解与交互式AI的交叉领域中，该数据集为探索流式多模态对话系统提供了独特的基准。其经典使用场景聚焦于烹饪任务中的实时指导与错误纠正，研究人员可借助视频与对齐的时间戳文本，训练模型在动态视频流中同步理解用户行为、生成指令或反馈。每一段视频均包含丰富的话语类型，如Instruction、Feedback与Success，使得模型能够学习何时以及如何在不同任务阶段进行自然干预，从而模拟真实世界中的教学互动过程。

衍生相关工作

围绕该数据集，衍生了一系列关于流式视频语言模型的前沿工作。最具代表性的研究包括提出的Streaming Interventions框架，该工作首次定义了在视频流中进行实时错误修正的任务，并构建了基准评估体系。此外，相关研究还涉及时间对齐的多模态融合机制、细粒度的行为状态追踪以及上下文感知的反馈生成策略。这些工作共同推动了视频理解领域从完整视频分析向流式、在线交互任务的延伸，为人机协作提供了新的方法论基础。

数据集最近研究