qualcomm-interactive-cooking-dataset
收藏Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/qualcomm/qualcomm-interactive-cooking-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了两个配置的详细数据文件路径,以及一系列的动作描述及其数据类型。这些动作描述可能代表了一系列的步骤或活动,用于训练和测试模型。
This dataset contains the detailed paths of data files for two configurations, as well as a series of action descriptions and their respective data types. These action descriptions may represent a set of steps or activities utilized for model training and testing.
提供机构:
Qualcomm
创建时间:
2025-11-26
原始信息汇总
Qualcomm Interactive Cooking Dataset 数据集概述
基本信息
- 数据集名称: Qualcomm Interactive Cooking Dataset
- 发布方: Qualcomm
- 许可证: license(具体条款见LICENSE文件)
数据集配置
配置1:advanced_planning
- 数据文件:
- 训练集:advanced_planning/train-*
- 验证集:advanced_planning/validation-*
- 测试集:advanced_planning/test-*
配置2:main
- 数据文件:
- 训练集:main/train-*
- 验证集:main/validation-*
- 测试集:main/test-*
数据结构
advanced_planning配置特征
- video_id: 字符串类型,视频标识符
- activity_name: 字符串类型,活动名称
- recipe_graph: 结构化数据,包含详细的烹饪动作描述计数
烹饪动作描述
数据集包含146个详细的烹饪步骤描述,涵盖多种菜品的制作过程,包括但不限于:
- 面食制作(墨西哥卷饼、煎饼等)
- 蔬菜处理(番茄切片、黄瓜腌制等)
- 蛋白质烹饪(鸡蛋、豆腐、金枪鱼等)
- 调味品调配(酱料、香料添加等)
- 厨房工具使用(刀具、微波炉、搅拌机等)
数据特征
- 每个烹饪步骤都有详细的量化描述
- 包含精确的食材用量和烹饪时间
- 涵盖从准备到装盘的完整烹饪流程
- 支持多道菜品的交互式烹饪分析
搜集汇总
数据集介绍

构建方式
在烹饪行为理解领域,该数据集通过系统化采集多模态数据构建而成。研究人员精心录制了完整的烹饪过程视频,并对每个视频片段进行细粒度标注,形成结构化的菜谱图谱。数据收集涵盖多样化的烹饪场景,包括不同菜系和烹饪技法,确保数据集的广泛代表性。每个烹饪步骤都经过专业标注人员的多重验证,保证动作描述的准确性和一致性。数据划分采用标准的三分法,分别设置训练集、验证集和测试集,为模型评估提供可靠基准。
特点
该数据集最显著的特点是包含详尽的烹饪动作结构化描述,每个菜谱步骤都以标准化格式呈现。数据涵盖从食材准备到成品装盘的完整烹饪流程,包含精确的计量信息和操作细节。独特的菜谱图谱结构能够清晰展现烹饪步骤间的时序关系和逻辑依赖。数据多样性体现在涵盖素食、主菜、甜点等多种烹饪类型,且包含不同文化背景的烹饪方法。每个样本都关联视频标识符和活动名称,支持多模态学习任务的研究需求。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,支持两种配置模式:主要配置和高级规划配置。数据集采用标准分割方式,用户可根据需要选择训练、验证或测试集进行模型开发。每个样本包含视频ID、活动名称和结构化菜谱图谱,便于进行动作识别、步骤预测等任务。对于时序建模研究,可利用菜谱图谱中的动作描述序列分析烹饪流程。多模态学习任务可结合视频数据与文本标注,开发跨模态理解模型。数据加载接口设计简洁,支持批量处理,方便大规模实验的开展。
背景与挑战
背景概述
在人工智能与计算机视觉领域,交互式任务理解正成为研究热点。Qualcomm Interactive Cooking Dataset由高通公司主导开发,专注于烹饪场景下的多模态行为分析。该数据集通过精细标注的食谱操作图谱,记录了从食材准备到成品装盘的全流程动作序列,为智能厨房助手和机器人操作系统的研发提供了重要支撑。其核心价值在于构建了烹饪活动中人类动作与物体交互的结构化表示,推动了具身智能在日常生活场景中的实际应用。
当前挑战
该数据集面临的领域挑战主要集中于复杂动作的时序建模与多模态对齐。烹饪过程中包含大量并行动作和工具使用场景,需要精确识别工具切换、双手协同等细粒度操作。在构建过程中,数据采集面临环境多样性挑战,包括光照变化、视角差异及厨具形变等因素。同时,食谱图谱的标注需要解决动作边界模糊性和操作步骤间的逻辑依赖关系,这对标注一致性和语义完整性提出了更高要求。
常用场景
经典使用场景
在烹饪行为理解与智能规划领域,该数据集通过精细标注的食谱操作步骤和视频序列,为动作识别模型提供了丰富的训练素材。其包含的多样化烹饪场景和详细的动作描述,使得研究者能够构建精确的动作时序模型,理解复杂烹饪流程中的步骤依赖关系。这种结构化数据特别适合用于训练深度学习模型,以识别和预测烹饪过程中的连续动作序列。
解决学术问题
该数据集有效解决了计算机视觉领域关于复杂人类行为理解的若干核心问题。通过提供标准化的烹饪动作标注体系,它促进了动作识别算法在细粒度分类上的突破。数据集的多模态特性为跨模态学习研究提供了理想平台,同时其精确的时间标注推动了时序动作定位技术的发展,对提升机器对现实世界复杂任务的认知能力具有重要价值。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。在动作识别方向,研究者提出了基于图神经网络的食谱步骤关系建模方法;在跨模态学习领域,涌现了结合视觉与文本信息的烹饪视频理解框架。同时,该数据集还催生了面向烹饪场景的时序动作检测算法,以及基于知识图谱的烹饪流程推理系统,这些成果显著推动了相关技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



