RVE-Bench
收藏arXiv2025-12-11 更新2025-12-12 收录
下载链接:
https://github.com/Liuxinyv/ReViSE
下载链接
链接失效反馈官方服务:
资源简介:
RVE-Bench是由通义实验室联合多所高校构建的首个推理感知视频编辑基准数据集,包含1000条高质量视频-指令三元组,涵盖因果推理、时空推理等复杂维度。数据源自现有编辑数据集(如Ditto-1M)的指令重构和电影场景的语义聚类,通过GPT-4o生成隐含物理逻辑的编辑指令。该数据集支持语义一致性和感知质量的自动化评估,旨在解决统一视频模型在逻辑连贯编辑中的能力缺陷,推动视频生成与现实动态理解的深度融合。
RVE-Bench is the first reasoning-aware video editing benchmark dataset developed by Tongyi Lab in collaboration with multiple universities. It contains 1,000 high-quality video-instruction triplets covering complex dimensions such as causal reasoning and spatio-temporal reasoning. The dataset is derived from instruction reconstruction of existing editing datasets (e.g., Ditto-1M) and semantic clustering of movie scenes, with editing instructions encoding implicit physical logic generated via GPT-4o. This dataset supports automated evaluation of semantic consistency and perceptual quality, aiming to address the capability deficiencies of unified video models in logically coherent editing, and promote the deep integration of video generation and real-world dynamic understanding.
提供机构:
香港科技大学、浙江大学、复旦大学、香港大学、中国人民大学、通义实验室
创建时间:
2025-12-11
原始信息汇总
ReViSE 数据集概述
数据集基本信息
- 数据集名称: ReViSE (Reason-Informed Video Editing)
- 核心任务: 推理感知视频编辑 (Reason-Informed Video Editing, RVE)
- 关联基准: RVE-Bench
数据集目的与背景
- 旨在解决视频统一模型在推理感知视觉编辑方面的不足。
- 现有数据集不足以训练和评估推理感知的视频编辑。
- 模型内部的理解能力与编辑能力之间存在脱节,丰富的理解无法有效指导编辑过程。
基准构成 (RVE-Bench)
RVE-Bench 是一个综合性基准,包含两个互补的子集:
- 推理感知视频编辑 (Reasoning-Informed Video Editing)
- 上下文视频生成 (In-Context Video Generation)
- 这些子集涵盖了多样化的推理维度和真实世界的编辑场景。
数据集状态
- [√] 已在 RVE-Bench 上发布预训练模型检查点。
- [√] 已发布模型推理代码。
- [ ] RVE-Bench 数据暂未发布。
- [ ] 训练代码暂未发布。
模型与框架
- 核心框架: ReViSE (Self-Reflective Reasoning, SRF 框架)
- 框架特点: 在单一架构内统一了生成与评估。
- 工作机制: 模型内部的视觉语言模型通过评估编辑后的视频在逻辑上是否满足给定指令来提供内在反馈。差分反馈在训练期间用于优化生成器的推理行为。
- 性能: 在 RVE-Bench 的推理感知视频编辑子集上,相比最先进方法,总体得分提升了 32%。
获取与使用
- 预训练模型: 可从 https://huggingface.co/sophiaa/revise/tree/main/revise_ckpt 下载。
- 环境配置: 需创建 Python 3.10 的 Conda 环境并安装依赖。
- 快速开始: 提供了环境变量设置脚本和推理脚本 (
bash tools/inference/inference.sh)。
引用
如果使用本项目,请引用:
@misc{liu2025revisereasoninformedvideoediting, title={ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning}, author={Xinyu Liu and Hangjie Yuan and Yujie Wei and Jiazheng Xing and Yujin Han and Jiahao Pan and Yanbiao Ma and Chi-Min Chan and Kang Zhao and Shiwei Zhang and Wenhan Luo and Yike Guo}, year={2025}, eprint={2512.09924}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.09924}, }
搜集汇总
数据集介绍

构建方式
在视频编辑领域,现有数据集多聚焦于表面像素操作,缺乏对物理合理性与因果动态的深层推理要求。RVE-Bench的构建旨在填补这一空白,其通过双源策略精心设计:推理感知视频编辑子集基于现有指令编辑数据集,利用GPT-4o对原始指令进行重述,注入因果、时空及常识推理线索,形成高质量的三元组样本;上下文视频生成子集则直接从电影数据中构建,通过场景切割、视觉相似性聚类与跨组匹配,筛选出语义相关的源-目标视频对,并借助GPT-4o生成蕴含叙事、因果或常识关系的编辑指令。这种融合合成数据与真实视频对的构建方式,确保了数据集在视觉多样性与语义深度上的平衡。
特点
RVE-Bench的核心特点在于其系统性地涵盖了推理维度的多样性与现实编辑场景的复杂性。数据集包含两个互补的子集:推理感知视频编辑侧重于局部编辑中明确的因果与物理推理,而上下文视频生成则强调复杂场景下的隐式上下文与时空推理。每个子集进一步细分为多种推理类型,如因果、空间、时间、常识、相机及情感推理,全面评估模型对现实世界动态的理解能力。此外,数据集配备了基于GPT-4o的自动化评估框架,从语义一致性与感知质量两个维度,通过编辑准确性、保持一致性、生成自然度与生成真实感四个细粒度指标,为模型性能提供鲁棒且可解释的量化评估。
使用方法
RVE-Bench主要服务于推理感知视频编辑任务的系统化评估与模型训练。研究人员可利用该数据集对统一视频生成模型进行基准测试,通过其提供的源视频、文本指令及参考编辑视频三元组,量化模型在复杂推理指令下的编辑性能。在训练层面,数据集支持监督微调与自反思学习等范式,例如ReViSE框架便利用数据集中富含推理的指令,驱动模型内部视觉语言模型生成内在反馈,以迭代优化编辑方向。使用时应遵循数据集的评估协议,注意不同子集在指标计算上的差异,例如上下文视频生成子集不计算保持一致性分数,以确保评估的公平性与针对性。
背景与挑战
背景概述
RVE-Bench是2025年由香港科技大学、浙江大学、复旦大学、香港大学、中国人民大学及通义实验室等机构联合提出的首个面向推理感知视频编辑任务的综合性基准数据集。该数据集旨在应对当前视频统一模型在理解和生成方面虽表现强劲,却难以执行需要物理合理性与因果动态推理的视觉编辑任务这一核心研究问题。其构建源于对现有数据集在训练和评估推理感知视频编辑方面不足的深刻洞察,以及对模型内部推理能力与编辑能力之间存在固有脱节的系统性反思。RVE-Bench通过引入推理感知视频编辑任务,推动了视频生成模型从简单的模式识别向融合深层世界知识推理的范式转变,对提升生成式人工智能在复杂、动态现实场景中的语义理解与内容创作能力具有重要影响力。
当前挑战
RVE-Bench所针对的领域挑战在于解决推理感知视频编辑这一新兴任务,其要求模型超越对指令的字面理解,整合对物理规律、因果逻辑、时空关系及常识的隐式推理,以生成语义忠实且逻辑连贯的视频编辑结果。具体挑战包括:模型需处理因果推理(如理解物体状态转变的驱动因素)、时空推理(如预测场景随时间的自然演化)、空间推理(如依据不同视角生成合理内容)以及常识推理(如确保编辑内容符合现实世界的基本规律)。在数据集构建过程中,主要挑战在于如何从现有仅描述表面像素操作的指令数据中,系统性地重构出蕴含深层推理信息的指令-视频对,同时确保新指令与原始视频内容在语义上的一致性;此外,从电影数据中构建富含叙事与上下文推理的样本时,也面临场景分割、语义聚类以及生成符合复杂叙事逻辑的指令等多重技术难题。
常用场景
经典使用场景
在视频编辑与生成领域,RVE-Bench作为首个专注于推理感知视频编辑的综合性基准,其经典使用场景集中于评估模型在复杂指令下进行视频编辑的能力。该数据集通过两个互补子集——推理感知视频编辑和上下文视频生成,系统化地测试模型对物理合理性、因果动态及场景上下文的理解。例如,在推理感知编辑任务中,模型需根据“设想船只离开一小时后场景”这类隐含时序推理的指令,生成符合逻辑的视频变换,而非仅执行表面像素操作。这种场景设计旨在推动模型超越简单的模式识别,实现语义忠实与逻辑连贯的深度编辑。
实际应用
在实际应用层面,RVE-Bench支撑的推理感知视频编辑技术可广泛应用于影视后期制作、虚拟现实内容生成及交互式媒体创作。例如,在电影特效中,模型可根据“让建筑立面反射天空冷色调”的指令,自动生成符合光照物理的视觉变换,提升制作效率与真实感。在教育与模拟领域,该技术能够基于复杂指令生成动态场景,如模拟地理变迁或物理过程,辅助可视化教学。此外,在个性化视频编辑工具中,用户可通过自然语言描述复杂意图,系统自动推理并生成符合逻辑的编辑结果,降低专业门槛。
衍生相关工作
RVE-Bench的推出催生了一系列围绕推理感知视频生成的衍生研究。以该数据集为基础,ReViSE框架首次将自反思学习机制引入统一视频模型,通过内部视觉语言模型提供内在反馈,显著提升了编辑的推理准确性。后续工作如VEGGIE和Omni-Video进一步探索了多模态指令解析与生成模型的紧耦合,增强了语义对齐能力。在评估方法上,基于GPT-4o的自动化评测框架被广泛采纳,推动了视频生成质量评估向多维度、细粒度发展。这些工作共同深化了对推理与编辑交互机制的理解,为构建端到端的智能视频创作系统提供了关键思路。
以上内容由遇见数据集搜集并总结生成



