InsAVE-80K

Name: InsAVE-80K
Creator: 北京智源人工智能研究院; 北京大学
Published: 2026-05-18 22:27:05
License: 暂无描述

arXiv2026-05-18 更新2026-05-20 收录

下载链接：

https://hjzheng.net/projects/InstructAV2AV/

下载链接

链接失效反馈

官方服务：

资源简介：

InsAVE-80K是由北京智源人工智能研究院与北京大学联合构建的首个大规模指令引导音视频联合编辑数据集，旨在为开放世界音视频内容协同操控提供高质量数据基础。该数据集包含约8万条样本，涵盖79K训练对和1K评估对，每条数据均包含源媒体、合成目标及文本指令三元组，数据源自公开在线平台及多个权威音视频数据集，并经过多阶段严格筛选。其创建过程采用可扩展数据合成流水线，通过掩码引导编辑引擎自动生成指令与目标，并辅以多模态大模型评估与人工验证确保数据可靠性。该数据集主要应用于音视频联合生成与编辑领域，致力于解决指令引导下跨模态细粒度内容同步修改的难题，推动可控媒体内容创作的技术发展。

InsAVE-80K is the first large-scale instruction-guided audio-visual joint editing dataset jointly constructed by the Beijing Academy of Artificial Intelligence (BAAI) and Peking University. It aims to provide a high-quality data foundation for collaborative manipulation of open-world audio-visual content. This dataset contains approximately 80,000 samples, including 79K training pairs and 1K evaluation pairs. Each data entry includes a triplet of source media, synthesized target, and text instruction. The data is sourced from public online platforms and multiple authoritative audio-visual datasets, and has undergone multi-stage strict screening. Its creation process adopts a scalable data synthesis pipeline, which automatically generates instructions and targets via a mask-guided editing engine, and is supplemented by multi-modal large model evaluations and manual verification to ensure data reliability. This dataset is mainly applied in the field of audio-visual joint generation and editing, and is committed to solving the challenge of synchronized modification of cross-modal fine-grained content under instruction guidance, so as to promote the technological development of controllable media content creation.

提供机构：

北京智源人工智能研究院; 北京大学

创建时间：

2026-05-18

搜集汇总

数据集介绍

构建方式

InsAVE-80K的构建始于从公开视频平台及数据集（如YouTube、MovieBench等）中广泛采集原始素材。首先，通过多阶段预处理管线对原始视频进行镜头分割、运动筛选与美学质量评估，同时利用音频过滤技术剔除无声或低质量片段，并借助语音检测与语义标签化工具精准定位活跃说话者与非语音事件源。随后，基于自动化的数据编辑引擎，利用Grounded-SAM-2获取实例级掩码作为空间锚点，结合Qwen3-Omni生成多样化文本指令，并通过掩码引导的编辑模型分别合成对齐的目标音频与视频，在严格保留非目标背景的前提下生成高质量的源-目标编辑对。最后，经过包含五维自动质量评估与20名志愿者人工校验的严格筛选流程，最终汇聚为包含79K训练样本与1K人工审核评估样本的大规模数据集。

特点

作为首个面向指令引导的音频-视频联合编辑的大规模数据集，InsAVE-80K具备显著特性。其样本均源自开放世界媒体，经过严格的多模态过滤以确保视觉清晰度与声源语义的明确性，覆盖人类语音与通用音效的丰富场景。数据集中每对样本均包含原始媒体、经编辑的目标媒体以及细粒度的文本指令，支持实例编辑、插入、移除及语音修改等多种操作。所有样本均保持720p分辨率、24FPS帧率与16kHz音频采样率，时长约5秒，并经过自动与人工双重验证，在指令遵循度、内容保真度、感知质量、音视频同步及安全性五个维度达到高标准，从而为模型训练与评估提供了可靠的数据基础。

使用方法

InsAVE-80K主要用于训练和评估指令引导的音频-视频联合编辑模型。研究者可将源视频与音频的潜在编码作为上下文锚点，与噪声潜在编码沿通道维度拼接后输入双流扩散变换器架构，结合文本指令通过源-指令门控注意力模块实现内容保持与编辑的平衡。推荐采用两阶段训练策略：先独立解耦视频与音频分支以迁移各自的生成先验，再启用双向跨模态注意力进行联合微调，从而保证时序与语义的严格同步。评估时，该数据集配套的1K人工校验样本可作为标准基准，通过视频、音频及联合模态的多项指标（如FVD、FAD、音视频对齐度等）全面衡量模型性能，同时支持零样本泛化能力的测试。

背景与挑战

背景概述

深度学习驱动的视频内容编辑技术在近年来取得了令人瞩目的进展，然而，现有方法普遍聚焦于视觉模态的单一操作，忽视了现实多媒体中音画天然耦合的特性。为填补这一空白，北京人工智能研究院与北京大学的郑浩杰、杨怡鑫、杨思琪、翁书晨与施柏鑫等研究者于2026年提出了 InstructAV2AV，首个面向指令引导的端到端音视频联合编辑框架。该工作的核心基石是同步构建的大型数据集 InsAVE-80K，其包含79,000个训练样本与1,000个人工精标的评估对，覆盖语音修改、实例编辑、插入与移除等多元化场景。该数据集首次为音视频联合编辑模型提供了高质量、大规模的源-目标配对数据，有力推动了多模态内容创作领域的发展。

当前挑战

InsAVE-80K数据集所应对的领域挑战在于，现有音视频编辑技术或依赖繁冗的手动掩膜标注，或局限于全局场景转换，难以实现仅凭文本指令对特定对象及其关联音频进行细粒度、开放式的联合操控。构建过程中面临的核心挑战则集中于数据稀缺与质量保障：开放世界中缺乏现成的高质量源-目标配对数据，为此研究者设计了一条可扩展的数据合成流水线，利用掩膜引导的编辑引擎自动生成指令与对应目标，并引入多模态大模型与人工核查相结合的五重严格筛选机制，剔除语义不符、伪影显著或同步异常的样本，最终保障了数据集的高可靠性与实用价值。

常用场景

经典使用场景

InsAVE-80K作为首个大规模指令引导的音视频联合编辑数据集，其经典使用场景在于为文本驱动的音视频协同操控提供训练与评测基石。研究者借助该数据集中的源-目标配对样本，可训练模型根据自然语言指令同时修改视频中的指定视觉对象及其对应的音频轨，例如将演讲者替换为另一人物并同步改变其语音内容，或移除场景中的某个实体及其伴随声响，同时严格保留非目标的背景与环境音频。该数据集涵盖身份保持的语音修改、音视频实例编辑、插入与移除四大核心应用范式，为开放世界音视频编辑技术提供了标准化的数据基础。

解决学术问题

InsAVE-80K的构建直面音视频联合编辑领域长期存在的训练数据匮乏困境。既有方法面临三重挑战：纯视频编辑忽视音频导致模态割裂、现有音视频编辑依赖空间掩码或繁琐辅助条件、以及缺乏大规模的源-目标配对资源。该数据集通过设计可扩展的数据合成流水线，结合五维自动筛选与人工验证机制，生成了79K训练对与1K评估对的优质样本，首次为指令驱动的端到端音视频联合编辑框架（如InstructAV2AV）提供了坚实的数据支撑。其意义在于突破了数据瓶颈，使模型能够学习跨模态语义对齐与上下文保持的复杂映射，推动了可控音视频内容创作从全局编辑走向实例级精细化操控。

衍生相关工作

基于InsAVE-80K的数据基础，衍生出一系列突破性工作。最直接的成果是InstructAV2AV框架，其通过提出源-指令门控注意力（SIGA）模块与两阶段训练策略，首次实现了无需空间掩码的端到端音视频联合编辑。此外，该数据集为后续研究提供了标准化基准，催生了多类探索：如基于数据引擎改进的掩码引导编辑模型、针对特定模态（如语音或通用音频）的精细操控方法、以及跨模态对齐评估指标的优化。已有工作在该数据集上进行消融实验，验证了源拼接、门控注意力与分阶段训练等核心设计的有效性，并为未来融合更强生成基座（如Ovi、LTX-2）的开放世界音视频编辑研究奠定了数据与评测基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集