COM Kitchens

Name: COM Kitchens
Creator: OMRON SINIC X Corp., 东京工业大学, 东京都立大学, Cookpad Inc.
Published: 2024-08-05 15:00:10
License: 暂无描述

arXiv2024-08-05 更新2024-08-07 收录

下载链接：

https://doi.org/10.32130/rdata.6.1

下载链接

链接失效反馈

官方服务：

资源简介：

COM Kitchens数据集由OMRON SINIC X Corp.等机构创建，包含145个未编辑的头顶视角烹饪视频，每个视频均配有手动标注的视觉动作图。数据集通过智能手机收集，涵盖从水槽到灶台的烹饪台面，捕捉活动无需现场协助。数据集的创建旨在解决从原始视频观察中查询教学内容的问题，适用于在线食谱检索（OnRR）和未编辑头顶视角视频的密集视频字幕（DVC-OV）等任务。

The COM Kitchens dataset was created by institutions including OMRON SINIC X Corp. It comprises 145 unedited overhead-view cooking videos, each paired with manually annotated visual action graphs. Collected using smartphones, the dataset covers kitchen countertops ranging from sinks to stovetops, and captures cooking activities without on-site assistance. The dataset was developed to address the challenge of querying instructional content from raw video observations, and is suitable for tasks such as Online Recipe Retrieval (OnRR) and Dense Video Captioning for Unedited Overhead-View Videos (DVC-OV).

提供机构：

OMRON SINIC X Corp., 东京工业大学, 东京都立大学, Cookpad Inc.

创建时间：

2024-08-05

搜集汇总

数据集介绍

构建方式

COM Kitchens 数据集的构建方式独具匠心。研究人员从 Cookpad Recipe Dataset 中选择了 145 个菜谱，这些菜谱预计准备时间不超过 30 分钟，且难度适中。参与者使用固定在三脚架上的 iPhone 11 Pro 智能手机，以 30 帧/秒的速率、全高清分辨率和超广角模式录制烹饪过程。这些视频未经剪辑，以保持真实性和多样性。参与者在 2021 年 8 月至 10 月期间录制了视频，研究人员从 410 个录制的视频中筛选出 210 个视频，最终标注了 145 个视频，总时长为 40 小时。

使用方法

COM Kitchens 数据集的使用方法主要包括以下两个方面：首先，它可以用于视频理解和语言理解任务的训练和评估。该数据集的视觉动作图和文本指令可以用于训练和评估视频字幕、视频检索和事件检测等任务。其次，该数据集还可以用于研究视频和语言之间的交互和理解。例如，可以研究如何将视觉动作图与文本指令进行对齐，以及如何从视频中生成更精确和详细的文本描述。

背景与挑战

背景概述

COM Kitchens数据集是计算机视觉和语言领域的一项重要进展，专注于对烹饪过程的视频理解。该数据集由OMRON SINIC X Corp., Tokyo Institute of Technology, Tokyo Metropolitan University, 和Cookpad Inc.的研究人员于2021年8月至10月期间收集，由智能手机从俯视角度捕捉未经编辑的烹饪视频。这些视频被用于开发深度学习模型，以便更好地理解和解释烹饪过程中的视觉和语言信息。COM Kitchens数据集为视频理解和语言分析提供了一个新的基准，特别是针对在线食谱检索和密集视频字幕任务。该数据集的创建对于推动视觉语言理解的研究具有重要意义，因为它提供了丰富多样且未经编辑的真实烹饪视频数据，以及详细的视觉动作图注释，这些注释将视频中的视觉元素与文本指令相链接。

当前挑战

尽管COM Kitchens数据集为视觉语言理解的研究提供了宝贵的资源，但它也带来了一系列挑战。首先，由于视频长度较长且包含重复的动作，这为视频字幕任务带来了困难。其次，由于视频是从俯视角度拍摄的，物体在画面中的位置不如在普通网络视频中的位置那样集中，这增加了将语言指令与视频事件对齐的难度。此外，现有的跨模态检索模型在处理长时间序列和时态依赖性方面存在局限性，需要探索新的预训练和微调方法。最后，数据集的大小仍然有限，这限制了模型的学习和泛化能力。

常用场景

经典使用场景

COM Kitchens 数据集主要用于推动视觉语言理解的进步，尤其是在处理未编辑的俯视图视频方面。该数据集包含了来自智能手机拍摄的未编辑的俯视图烹饪视频，并配备了详细的视觉动作图，将指令性文本与视觉元素通过边连接起来。这为视频到文本检索任务（如在线食谱检索）和视频字幕领域（如密集视频字幕）提供了新的研究基础。

解决学术问题

COM Kitchens 数据集解决了当前基于网络的视频分析方法在处理未编辑视频时的局限性。它提供了一个具有丰富环境多样性的数据集，使用现代智能手机的广角镜头捕捉烹饪过程，无需现场协助。此外，该数据集还提供了视觉动作图，这是首次在未编辑的视频上进行的，为理解长期程序上下文提供了结构化注释。

实际应用

COM Kitchens 数据集的实际应用场景包括开发在线食谱推荐系统，以及为视频内容分析和搜索提供增强的能力。通过该数据集，研究人员可以训练模型以理解烹饪过程，并从视频中生成详细的字幕。此外，该数据集还可以用于开发智能家居应用，如自动识别和推荐食谱。

数据集最近研究