CookGen

Name: CookGen
Creator: 约翰斯·霍普金斯大学, 字节跳动Seed
Published: 2025-01-11 02:52:11
License: 暂无描述

arXiv2025-01-11 更新2025-01-14 收录

下载链接：

https://videoauteur.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

CookGen是一个专注于烹饪领域的大规模视频数据集，由约翰斯·霍普金斯大学和字节跳动Seed团队创建。该数据集包含约200,000个视频片段，每个片段平均时长为9.5秒，数据来源于YouCook2和HowTo100M。数据集经过严格的质量过滤和字幕匹配处理，确保每个视频片段都具有清晰的叙事流程和详细的字幕描述。CookGen旨在支持长叙事视频生成的研究，特别是在烹饪领域，通过提供结构化的视频数据，帮助模型生成具有视觉和语义一致性的长视频。该数据集的应用领域包括视频生成、自然语言处理以及多模态学习等。

CookGen is a large-scale video dataset dedicated to the culinary domain, developed jointly by Johns Hopkins University and the ByteDance Seed Team. Comprising approximately 200,000 video clips with an average duration of 9.5 seconds each, the dataset is sourced from YouCook2 and HowTo100M. Rigorous quality filtering and subtitle matching procedures have been applied to ensure that every video clip features a clear narrative flow and detailed subtitle descriptions. CookGen aims to support research on long-form narrative video generation, particularly in the culinary domain, by providing structured video data to assist models in generating long videos with visual and semantic consistency. Potential application scenarios of this dataset include video generation, natural language processing, and multimodal learning, among others.

提供机构：

约翰斯·霍普金斯大学, 字节跳动Seed

创建时间：

2025-01-11

搜集汇总

数据集介绍

构建方式

CookGen数据集的构建基于大规模烹饪视频的收集与标注，主要来源于YouCook2和HowTo100M两个现有视频数据集。通过质量过滤和字幕匹配机制，提取出具有明确叙事流程的视频片段。每个视频片段均包含一系列按时间顺序排列的动作和视觉状态，确保了数据集的叙事连贯性。此外，数据集还通过自动语音识别（ASR）生成的伪标签进行动作标注，并结合大语言模型（LLM）进行优化，以提升动作描述的质量。最终，数据集包含约20万个视频片段，平均时长为9.5秒，涵盖了丰富的烹饪场景和步骤。

特点

CookGen数据集的特点在于其高度结构化的叙事流程和丰富的多模态信息。每个视频片段都配有详细的动作描述和视觉字幕，确保了数据集的语义一致性和视觉连贯性。数据集中的烹饪视频具有明确的步骤序列，便于模型学习和评估长叙事视频生成任务。此外，数据集的标注质量通过先进的视觉-语言模型（VLM）和视频生成模型进行了验证，确保了视觉保真度和文本字幕的准确性。数据集还提供了密集的文本描述，平均每个视频包含763.8个单词，远超现有数据集，为长叙事视频生成提供了强有力的支持。

使用方法

CookGen数据集的使用方法主要围绕长叙事视频生成任务展开。首先，通过数据集中的动作和字幕信息，训练一个长叙事导演模型，生成连贯的视觉嵌入或关键帧序列。这些视觉嵌入随后作为条件输入到视频生成模型中，生成与叙事流程一致的长视频。数据集还支持对生成视频的视觉保真度和语义一致性进行评估，通过逆视频生成和视觉-语言模型的评估，验证生成视频的质量。此外，数据集的开源特性为未来的长视频生成研究提供了丰富的资源和基准测试平台。

背景与挑战

背景概述

CookGen数据集由约翰霍普金斯大学和字节跳动Seed团队于2025年创建，旨在推动长叙事视频生成领域的研究，特别是在烹饪领域。该数据集由约20万个视频片段组成，平均每个片段时长为9.5秒，涵盖了从YouCook2和HowTo100M等现有数据集中筛选出的高质量烹饪视频。CookGen的核心研究问题是如何生成具有清晰叙事结构的长视频，尤其是在烹饪任务中，每个步骤都有明确的动作和视觉状态。该数据集通过提供详细的动作和字幕注释，为长叙事视频生成模型的训练和评估提供了重要支持，推动了视频生成技术在语义一致性和视觉保真度方面的进步。

当前挑战

CookGen数据集面临的挑战主要包括两个方面。首先，在领域问题方面，长叙事视频生成需要解决语义一致性、对象/角色身份保持以及复杂事件序列的构建等问题。现有的视频生成模型在生成长视频时，往往难以保持叙事的连贯性，尤其是在多场景切换时容易丢失关键信息。其次，在数据集构建过程中，CookGen面临的主要挑战是如何从现有的视频数据中提取出具有明确叙事结构的片段。尽管数据集来源广泛，但许多视频的注释质量参差不齐，部分注释过于粗糙或缺乏详细的动作描述，难以满足长叙事视频生成的需求。此外，自动语音识别（ASR）生成的动作注释存在噪声，导致部分动作描述不完整或模糊，进一步增加了数据处理的复杂性。

常用场景

经典使用场景

CookGen数据集在长叙事视频生成领域具有广泛的应用，尤其是在烹饪视频生成方面。该数据集通过提供结构化的烹饪视频片段，支持模型生成连贯的长叙事视频。每个视频片段都包含详细的动作描述和视觉状态，使得模型能够逐步生成从食材准备到最终成品的完整烹饪过程。这种逐步生成的方式不仅提高了视频的连贯性，还增强了视觉和语义的一致性。

衍生相关工作

CookGen数据集衍生了许多相关的研究工作，尤其是在长叙事视频生成和视觉-语言模型领域。基于该数据集，研究人员提出了多种创新的生成模型，如VideoAuteur，该模型通过自回归方式生成视觉嵌入和关键帧，显著提升了视频生成的连贯性和视觉质量。此外，该数据集还推动了视觉-语言模型在烹饪领域的应用，促进了多模态生成模型的发展。这些工作不仅扩展了数据集的应用范围，还为未来的长叙事视频生成研究提供了新的方向。

数据集最近研究