qualcomm/qualcomm-interactive-cooking-dataset-counterfactual-mistakes
收藏Hugging Face2026-05-05 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/qualcomm/qualcomm-interactive-cooking-dataset-counterfactual-mistakes
下载链接
链接失效反馈官方服务:
资源简介:
这个合成数据集包含用于交互式烹饪指导的错误干预标注。每个数据行包含视频片段以及指令/反馈文本对及其时间戳。
This synthetic dataset contains mistake-intervention annotations for interactive cooking guidance. Each row contains video segment with instruction/feedback text pairs and their timestamps.
提供机构:
qualcomm
搜集汇总
数据集介绍

构建方式
该数据集通过利用Qwen3-VL-32B-Instruct与Gemini-2.5-Pro等先进多模态大语言模型,基于来自CaptainCook4D、Ego4D及Ego-Exo4D的原始烹饪视频数据,自动生成带有干预性错误标注的合成样本。每个样本包含一个视频片段,并配以指令与反馈文本对及其对应的时间戳,旨在模拟交互式烹饪指导中的反事实错误场景。
特点
数据集共包含25,087条标注样本,覆盖1,110个独特视频片段,错误类型涵盖诸如准备错误等多种烹饪过程中的常见失误。每条数据提供了详细的指令与纠正性反馈文本对,时间戳精准对齐,便于模型学习识别用户操作偏差并给出实时指导。其多源数据融合特性增强了场景多样性,为研究多模态交互式任务辅助系统提供了丰富的训练材料。
使用方法
用户可通过HuggingFace的datasets库便捷加载数据,调用load_dataset函数指定数据集名称及分割即可获得训练集。每条数据以JSON字典形式存储,包含源数据集标识、视频ID、时间戳、错误类型、文本序列及其对应类型与时间戳等字段,便于按需提取用于模型训练或评估。该数据集仅限研究用途,使用时需遵循其附带的许可证条款。
背景与挑战
背景概述
该数据集名为Qualcomm Interactive Cooking Dataset: Ego Counterfactual Mistakes,由Qualcomm公司于2025年发布,相关研究成果发表于NeurIPS 2025。数据集聚焦于交互式烹饪指导中的错误干预注释,核心研究问题在于探索多模态大语言模型能否提供实时的步骤级任务引导。通过整合来自CaptainCook4D、Ego4D和Ego-Exo4D三个源数据集的视频片段,并结合Qwen3-VL-32B-Instruct与Gemini-2.5-Pro生成的反事实错误标注,该数据集为构建智能化烹饪辅助系统提供了关键资源。其在人机交互、多模态学习及可解释AI领域具有重要影响力,推动了面向日常任务的实时反馈与错误纠正技术的研究。
当前挑战
数据集所解决的领域问题包括:1)交互式任务指导中的实时错误检测与纠正挑战,即如何从第一人称视频中自动识别用户操作失误并生成恰当的反馈文本;2)多模态对齐与时间敏感性建模挑战,需将指令、反馈与视频片段在精确时间戳上匹配。在构建过程中,主要挑战在于:1)合成数据生成的准确性,依赖先进多模态大模型产生高质量反事实标注,需确保错误类型(如preparation_error)的语义合理性;2)跨源数据异构性处理,三个源数据集在拍摄视角、标注粒度与场景复杂度上存在差异,需统一格式并保持一致性。
常用场景
经典使用场景
该数据集聚焦于交互式烹饪场景中的反事实错误干预,旨在为多模态语言模型提供细粒度的步骤级指导与反馈。经典用法是将视频片段与对应的指令文本、错误类型及反馈文本配对,训练模型识别用户在烹饪过程中的常见失误,如准备错误、顺序颠倒或工具使用不当。研究者可利用数据集中25,087条标注样本,构建能够实时监测并纠正用户行为的智能助手。每条记录均包含时间戳对齐的指令与反馈对,使模型不仅能模拟正确步骤,更能学习在错误发生时以自然语言提供纠正性指导,从而提升人机协作的流畅性与安全性。
实际应用
在实际应用中,该数据集可直接赋能智能厨房系统、增强现实烹饪辅助眼镜及可穿戴设备中的实时指导功能。例如,当用户使用电磁炉而非灶台时,系统能依据‘preparation_error’类别的样本,即时生成‘请改为在灶台上煮沸水’的修正指令。类似地,在机器人烹饪教学中,数据集可训练机械臂识别物料混淆或顺序错误,并自主调整操作流程。此外,该数据还适用于医疗康复场景中饮食准备环节的监督,帮助认知障碍患者降低操作失误风险,或为视障人士提供多模态的安全烹饪辅助。
衍生相关工作
该数据集衍生了一系列关于多模态交互与反事实推理的前沿工作。最直接的是2025年NeurIPS收录的论文《Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?》,其利用本数据集探索了如何让大语言模型在实时视频流中准确检测用户错误并生成上下文相关的反馈。后续工作包括基于该数据构建的错误类型分类器、时序定位模型,以及融合指令与反馈的跨模态对比学习方法。此外,研究者还将其与源数据集(如CaptainCook4D、Ego4D)联合使用,开发出能够同时理解可操作步骤与意外偏差的统一框架,推动了交互式任务指导从静态演示向动态纠错的新研究方向。
以上内容由遇见数据集搜集并总结生成



