Goku

Name: Goku
Creator: 中国科学技术大学; 腾讯混元
Published: 2026-06-30 01:38:15
License: 暂无描述

arXiv2026-06-30 更新2026-07-01 收录

下载链接：

http://flying-sky999.github.io/Goku.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Goku是由中国科学技术大学与腾讯混元联合构建的大规模指令式视频编辑数据集，包含200万条高质量视频编辑对，首次将任务范围从基础外观编辑扩展至多任务与结构编辑。该数据集涵盖10类核心编辑任务，视频分辨率为720p，每段视频包含65至129帧，数据来源于Koala-36M的精选视频片段，并通过自动化流水线结合渐进过滤系统生成。其构建过程采用任务分解策略，利用Gemini2.5-Pro生成指令并确保语义保真与时序一致性，旨在为复杂视频编辑模型提供训练与评测基准，解决现有数据集在结构变换与多任务编辑方面的不足。

Goku is a large-scale instructional video editing dataset jointly constructed by the University of Science and Technology of China and Tencent Hunyuan. It encompasses 2 million high-quality video editing pairs, and for the first time expands the task scope from basic appearance editing to multi-task and structural editing. This dataset covers 10 core editing tasks, with all videos at 720p resolution and each containing between 65 and 129 frames. The data is sourced from curated video clips from Koala-36M, and generated through an automated pipeline integrated with a progressive filtering system. Its construction employs a task decomposition strategy, utilizing Gemini 2.5-Pro to generate instructional prompts and ensure semantic fidelity and temporal consistency. This dataset is intended to provide training and evaluation benchmarks for complex video editing models, addressing the existing shortcomings of prior datasets in structural transformation and multi-task editing.

提供机构：

中国科学技术大学; 腾讯混元

创建时间：

2026-06-30

原始信息汇总

数据集概述

数据集名称：Goku
规模：200万（2 million）高质量、指令对齐的视频编辑对
任务范围：首个将任务边界从基础外观编辑扩展到多任务和结构操控（如精确控制主体运动）的大规模数据集
数据合成：设计了高效的数据合成流程，将复杂编辑分解为可控子问题，并引入渐进式过滤系统保证数据可靠性

数据集样本类别

类别	描述
多任务编辑	通过多轮编辑生成的编辑数据，示例包括2步和3步序列
结构编辑	包括摄像机运动和主体运动，如摄像机平移、倾斜、缩放，主体低头、闭眼、改变姿势等
参考添加	从参考图像中向视频添加指定对象
参考替换	用参考图像中的对象替换视频中的对象
添加编辑	向视频场景中添加新对象或元素
移除编辑	从视频场景中移除现有对象或元素
替换与修改	替换或修改视频中的特定对象和属性，如换装、改色、背景替换等
风格编辑	转移或修改整个视频的视觉风格，如城市速写、油画、波普艺术、皮克斯风格

基准与模型

基准：Goku-Bench

包含 1,000 个人工验证的测试用例
引入 7 项新颖的编辑专用评估指标

模型：Goku-Edit

采用多模态大语言模型（MLLM）作为文本编码器
解耦双分支设计：一个专用掩码分支处理结构控制，主分支负责外观渲染
在Goku-Bench上，指令跟随能力相较其他开源模型提升高达 +8%

与其他方法对比

在7个示例中，Goku-Edit与InsV2V、InsVIE、OmniVideo、Lucy等方法进行并排比较，覆盖多任务、结构编辑、外观编辑等场景。

搜集汇总

数据集介绍

构建方式

在视频编辑领域，现有数据集多局限于单任务外观编辑，难以满足真实世界中复杂的创意需求。为此，Goku数据集采用了一套高效的数据合成流水线，将复杂的编辑任务分解为可控的子问题。对于基础外观编辑，利用VACE模型进行鲁棒数据合成；对于结构性编辑（如主体运动、摄像机运动）和多任务编辑，则将复杂指令分解为独立的子任务，并调用任务专用专家模型逐步执行。同时，引入基于Gemini2.5-Pro的渐进式过滤系统，在指令对齐、帧间稳定性和感知逼真度三个维度上逐级筛选，确保数据的高保真度和时序一致性。最终构建了包含200万对高质量视频编辑样本的大规模数据集。

特点

Goku数据集的核心特点在于其前所未有的全面性和多样性。与仅覆盖外观编辑的现有数据集不同，Goku首次将任务边界从基础外观编辑拓展至多任务编辑和结构性操作（如精确控制主体运动、摄像机运动），并支持参考图像引导编辑。数据来源经过严格质量控制，涵盖720p分辨率、65至129帧的视频片段，指令长度分布广泛，覆盖10种核心编辑任务类别。此外，其渐进式过滤系统通过三级质量门控（源视频过滤、条件验证、合成后验证）剔除了约88%的低质量样本，确保了最终数据的高语义精度和时间连贯性。

使用方法

Goku数据集可用于训练和评估基于指令的视频编辑模型。用户可将视频对（源视频与编辑后视频）及相应指令作为训练数据，输入至如Goku-Edit等双分支架构模型中，其中主分支负责外观渲染，辅助掩码分支提供空间约束。数据集还支持多种任务类型，包括添加、移除、替换、风格迁移、主体运动、摄像机运动及多任务编辑。此外，配套的Goku-Bench基准提供了1000个人工验证的测试案例和7项专用评估指标，可用于公平对比不同模型在指令跟随、物理合理性、空间关系准确性等方面的性能。

背景与挑战

背景概述

Goku数据集由腾讯混元与中国科学技术大学联合团队于2026年提出，旨在突破现有指令式视频编辑数据集局限于外观编辑的瓶颈。该数据集包含200万对高质量、指令对齐的视频编辑样本，首次将任务边界从基本的属性修改拓展至多任务协同编辑与结构性操作，如精确控制主体运动轨迹。通过引入渐进式过滤系统确保数据可靠性，Goku为视频编辑领域提供了前所未有的多样性与复杂性。其配套的Goku-Bench基准包含1000个人工验证的测试用例与7项专用指标，对相关领域产生了深远影响，推动了视频编辑技术向真实场景复杂需求的迈进。

当前挑战

Goku所解决的领域问题在于现有方法难以应对真实世界中多任务协同与结构性变换的编辑需求，如同时执行风格迁移与物体移除。构建过程中面临的核心挑战包括：如何将复杂编辑指令分解为可控子问题，并利用任务特定专家模型按序执行；如何设计三级渐进式过滤系统，在指令对齐、帧间稳定性与感知真实感三个维度严格筛选，以避免子问题串联时的误差累积；以及如何为参考引导编辑生成带有姿态偏移与光照变化的扰动参考图像，防止模型退化为像素级复制。

常用场景

经典使用场景

在指令驱动的视频编辑领域，Goku数据集以其百万级高质量视频编辑对，首次将编辑任务边界从单一外观修改拓展至多任务与结构性操控，如精准控制主体运动和摄像机运动。研究者利用其丰富的任务类别与精细的指令标注，探索复杂视频编辑的通用框架，成为评估和训练新一代视频编辑模型的基准平台。

解决学术问题

Goku数据集系统性地解决了现有视频编辑数据集任务单一、缺乏结构性变换和多任务编辑支持的瓶颈问题。通过覆盖基础外观编辑、结构变形、参考引导编辑及多任务联合编辑等十大核心任务，Goku填补了从简单属性修改到复杂真实世界视频操纵之间的空白，其渐进式过滤系统保障了数据语义精确性与时间一致性，显著提升了模型在指令跟随和空间推理上的表现。

衍生相关工作

基于Goku数据集，研究者提出了Goku-Edit模型，采用多模态大语言模型作为文本编码器与解耦双分支架构，通过掩码分支提供空间约束以增强主分支的外观渲染能力。此外，Goku-Bench基准测试包含了1000个人工验证的测试案例与7项专用评估指标，为后续复杂视频编辑模型的设计与评估奠定了标准化框架，并催生了一系列关于结构编辑与多任务联合优化的后续研究。

以上内容由遇见数据集搜集并总结生成