qualcomm-interactive-cooking-dataset-counterfactual-mistakes

Name: qualcomm-interactive-cooking-dataset-counterfactual-mistakes
Creator: Qualcomm
Published: 2026-05-01 17:05:36
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/qualcomm/qualcomm-interactive-cooking-dataset-counterfactual-mistakes

下载链接

链接失效反馈

官方服务：

资源简介：

Qualcomm交互式烹饪数据集：反事实错误是一个合成数据集，包含用于交互式烹饪指导的错误干预注释。每条记录包含带有指令/反馈文本对及其时间戳的视频片段。数据集采用多模态形式（文本和视频），包含25,087条记录，源自1,110个独特视频。数据字段包括数据集来源、视频ID、起始和结束时间、错误类型、文本内容、文本时间戳和文本类型。该数据集使用Qwen3-VL-32B-Instruct和Gemini-2.5-Pro生成，适用于文本生成任务，特别是烹饪指导场景。数据集仅限研究使用，需遵守Qualcomm交互式烹饪数据集的许可条款。

提供机构：

Qualcomm

创建时间：

2026-04-30

原始信息汇总

数据集概述：Qualcomm Interactive Cooking Dataset: Counterfactual Mistakes

该数据集是一个用于交互式烹饪指导的合成数据集，包含错误干预注释。每条记录对应一个视频片段，并配有指令/反馈文本对及其时间戳。

基本信息

许可证：研究目的专用，需遵守 Qualcomm Interactive Cooking Dataset 的许可条款（具体见 LICENSE 文件）。
语言：英语
任务类别：文本生成
标签：流式处理、视频、文本、多模态、烹饪
注释创建者：机器生成
多语言性：单语
来源数据集：原始数据
数据规模：10,000 < 样本数 < 100,000

数据集组成

总行数：25,087
唯一视频数（数据集 + video_id）：1,110
按来源数据集划分：
- CaptainCook4D：4,969 行
- Ego4D：13,847 行
- Ego-Exo4D：6,271 行

数据收集过程

数据集使用 Qwen3-VL-32B-Instruct 和 Gemini-2.5-Pro 模型生成。

数据格式

数据文件为 annotations.json，每条记录的结构如下：

json { "dataset": "Ego4D", "video_id": "39d087b0-afc2-47d8-ba91-b70dd8fab90e", "start_time": 1191.26881, "end_time": 1204.66377, "mistake_type": "preparation_error", "texts": [ "Microwave the water until boiling.", "For this step, please boil the water in the microwave instead of on the stovetop." ], "text_timestamps": [1191.26881, 1196.26881], "text_types": ["Instruction", "Feedback"] }

字段说明：
- dataset：来源数据集名称
- video_id：视频唯一标识符
- start_time / end_time：视频片段的起止时间（秒）
- mistake_type：错误类型（如 preparation_error）
- texts：文本列表，通常包含指令和反馈
- text_timestamps：每条文本对应的时间戳（秒）
- text_types：每条文本的类型（如 "Instruction", "Feedback"）

数据配置

配置名称：default
划分：仅包含 train 拆分，共 25,087 个样本
特征：
- dataset（字符串）
- video_id（字符串）
- start_time（浮点数）
- end_time（浮点数）
- mistake_type（字符串）
- texts（字符串序列）
- text_timestamps（浮点数序列）
- text_types（字符串序列）

使用示例

python from datasets import load_dataset

ds = load_dataset("qualcomm/qualcomm-interactive-cooking-dataset-counterfactual-mistakes", split="train")

row = ds[0] source_dataset = row["dataset"] video_id = row["video_id"] texts = row["texts"] text_types = row["text_types"] text_timestamps = row["text_timestamps"]

引用

若使用该数据集，请引用以下论文：

bibtex @inproceedings{interactivecooking, title = {Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?}, author = {Apratim Bhattacharyya and Bicheng Xu and Sanjay Haresh and Reza Pourreza and Litian Liu and Sunny Panchal and Leonid Sigal and Roland Memisevic}, booktitle = {NeurIPS}, year = {2025} }

搜集汇总

数据集介绍

构建方式

该数据集通过调用Qwen3-VL-32B-Instruct与Gemini-2.5-Pro等先进多模态大语言模型，对源自CaptainCook4D、Ego4D及Ego-Exo4D三大视频烹饪数据集的片段进行自动化错误干预标注。模型针对烹饪过程中常见的人为失误，生成包含原始指令与纠正性反馈的文本对，并辅以精确的时间戳信息，最终汇聚成包含25,087条样本的合成数据集，覆盖了1,110段独特的烹饪视频。

使用方法

研究者可通过HuggingFace的datasets库便捷加载该数据集。使用load_dataset函数指定仓库名称并选择'train'划分，即可获取迭代器。访问返回样本的各字段，如'texts'获取指令-反馈文本列表，'text_timestamps'获取对应时间戳，'text_types'区分文本角色，进而支持视频片段定位、多模态对齐分析及错误检测模型训练等下游任务。数据集仅限研究用途，并需引用相关论文。

背景与挑战

背景概述

Qualcomm Interactive Cooking Dataset: Counterfactual Mistakes是于2025年由高通研究团队构建的一个多模态合成数据集，旨在推动交互式烹饪任务指导领域的发展。该数据集通过大规模视觉语言模型（如Qwen3-VL-32B-Instruct和Gemini-2.5-Pro）自动生成，从CaptainCook4D、Ego4D和Ego-Exo4D三个现有视频数据集中提取了25,087个带有反事实错误干预标注的视频片段。核心研究问题聚焦于如何利用多模态大模型在实时烹饪场景中识别用户操作失误并提供针对性反馈，其相关论文已被NeurIPS 2025接收。该数据集填补了交互式任务指导中缺乏高质量错误-反馈平行数据的空白，为开发能够理解上下文、检测异常并给出自然语言引导的智能代理提供了关键训练资源，对具身智能和人机协作领域具有重要影响。

当前挑战

该数据集面临的挑战主要体现在两个层面。在领域问题层面，交互式烹饪指导需要模型在动态、多步骤的任务中精准识别用户意图与规范流程之间的偏差，并生成及时、可操作的纠正反馈，这要求模型具备细粒度的动作理解、常识推理以及时序对齐能力，远超传统图像分类或文本生成任务的复杂度。在数据集构建过程中，挑战在于利用合成方法生成逼真的反事实错误场景——如何确保自动生成的错误类型（如准备错误、顺序错乱）在现实中具有合理性，同时避免引入模型偏见；此外，来自不同源视频（Ego4D、Ego-Exo4D）的时空片段在分辨率、视点和任务多样性上存在差异，需统一标注格式以保证数据一致性，而多模态文本与视频时间戳的精确对齐也对自动化流水线提出了严苛要求。

常用场景

经典使用场景

该数据集聚焦于交互式烹饪场景中的错误检测与纠正，其经典使用场景是作为多模态大语言模型（MLLM）在实时任务指导中的基准测试平台。研究者可利用视频片段与指令-反馈文本对，训练或评估模型识别用户在烹饪过程中的反事实错误，例如操作顺序颠倒、工具使用不当或火候失误，并生成相应的纠正性反馈。这一场景为构建能够提供逐步指导的智能烹饪助手奠定了基础，推动人机交互从被动响应向主动纠错演进。

解决学术问题

数据集主要解决了三个学术难题：第一，为反事实推理在多模态任务中的应用提供了标准化评估基准，填补了真实世界错误类型标注数据的缺失；第二，通过融合Ego4D、CaptainCook4D等第一人称及第三人称视频数据，克服了单视角动作识别中错误边界模糊的局限；第三，引入了细粒度的错误类型分类（如preparation_error），支持研究者解析错误发生的时序上下文。这些突破提升了模型在非理想操作条件下的鲁棒性，对理解人类执行意图与实际操作间的认知鸿沟具有关键意义。

实际应用

在实际应用中，该数据集支撑着智能厨房系统的开发，如通过智能眼镜或移动设备实时检测用户切菜方向错误、调味品遗漏等失误，并推送语音或视觉纠正指令。它还助力个性化烹饪学习平台，根据用户反复出现的错误模式动态调整教程难度。此外，结合视频流与文本反馈的时序对齐特性，该数据可用于工业场景中的装配线操作监控、医疗康复训练中的动作纠错以及复杂机械维修的虚拟指导系统，显著提升任务完成的规范性与安全性。

数据集最近研究