five

IntelligentVBench

收藏
arXiv2026-03-26 更新2026-03-27 收录
下载链接:
https://omniweaving.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
IntelligentVBench是由腾讯混元等机构提出的首个综合性基准,旨在严格评估下一代智能统一视频生成模型的性能。该数据集覆盖多模态组合和抽象推理任务,支持自由形式的跨模态输入,采用'VLM-as-a-judge'范式进行鲁棒评估。通过整合真实世界和合成数据源,构建了包含基础视频生成、多模态组合及推理增强任务的多样化训练语料,为复杂场景下的意图对齐和语义逻辑建模提供基准支持。

IntelligentVBench is the first comprehensive benchmark proposed by institutions including Tencent Hunyuan, aiming to rigorously evaluate the performance of next-generation intelligent unified video generation models. This dataset covers multimodal combination and abstract reasoning tasks, supports free-form cross-modal input, and adopts the 'VLM-as-a-judge' paradigm for robust evaluation. By integrating real-world and synthetic data sources, it constructs a diverse training corpus including basic video generation, multimodal combination and reasoning-enhanced tasks, providing benchmark support for intent alignment and semantic logic modeling in complex scenarios.
提供机构:
浙江大学; 腾讯混元; 南洋理工大学
创建时间:
2026-03-26
原始信息汇总

OmniWeaving 数据集概述

基本信息

  • 数据集名称: OmniWeaving
  • 核心目标: 提出一个全能的视频生成模型,具备强大的多模态组合和推理能力,以弥合开源模型与专有系统(如Seedance-2.0)之间的差距。
  • 提出机构: 浙江大学、腾讯混元、南洋理工大学
  • 状态: 论文已发布在Arxiv;模型和代码正在内部合规审查中,预计很快(一周内)公开;项目页面已发布。

模型架构

  • 整体框架: 集成式 MLLM + MMDiT + VAE 框架,用于统一的自由形式视频生成。
    • MLLM: 作为语义解析器,处理交错的文本、图像和视频输入,将其映射到高级语义空间,并通过MLP连接器转发其隐藏状态。
    • VAE: 作为视觉标记器,将视觉输入压缩为低维潜在表示。
    • MMDiT: 利用这些语义条件与潜在噪声,生成语义对齐、高保真度的视频。
  • 两项额外改进:
    1. 激活MLLM的思维模式: 将MLLM从被动特征提取器提升为主动推理器。通过激活思维模式生成中间推理步骤,自主推断出语义精确、增强的提示。该增强提示的隐藏状态与原始MLLM特征一起用于调节MMDiT。
    2. 隐藏状态深度堆叠: 从更广泛的中间MLLM层提取隐藏状态,以捕获从细粒度细节到高级抽象的丰富语义谱。通过MLP连接器将这些多级特征投影到MMDiT嵌入空间,并直接添加到MMDiT条件分支的前三层中的相应隐藏状态中。

主要能力与示例

模型支持多种视频生成任务,包括:

  • 文本到视频 (T2V)
  • 首帧到视频 (I2V)
  • 关键帧到视频
  • 视频到视频编辑
  • 组合式多图像到视频
  • 文本-图像-视频到视频
  • 推理增强视频生成

评估基准与结果

  • 引入的基准: IntelligentVBench,首个用于严格评估下一代智能统一视频生成的综合基准。
  • 主要结果: 在IntelligentVBench上的广泛实验表明,OmniWeaving在开源统一模型中实现了最先进的性能。
    • OmniWeaving (think) 在多个任务上取得领先分数,例如:
      • Implicit I2V (MIN): 3.34
      • Implicit I2V (AVG): 3.93
      • Interpolative DI2V (MIN): 4.11
      • Interpolative DI2V (AVG): 4.54
    • OmniWeaving (w/o think) 在以下任务表现优异:
      • TIV2V (MIN): 3.31
      • TIV2V (AVG): 3.89
      • Compositional MI2V (MIN): 3.70
      • Compositional MI2V (AVG): 4.31

引用信息

  • BibTeX: bibtex @misc{pan2026omniweavingunifiedvideogeneration, title={OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning}, author={Kaihang Pan and Qi Tian and Jianwei Zhang and Weijie Kong and Jiangfeng Xiong and Yanxin Long and Shixue Zhang and Haiyi Qiu and Tan Wang and Zheqi Lv and Yue Wu and Liefeng Bo and Siliang Tang and Zhao Zhong}, year={2026}, eprint={2603.24458}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.24458}, }

  • 论文地址: https://arxiv.org/abs/2603.24458

搜集汇总
数据集介绍
main_image_url
构建方式
IntelligentVBench的构建遵循严谨的学术范式,旨在全面评估统一视频生成模型的高级智能能力。该基准测试通过精心设计的任务分类,涵盖了隐式图像到视频生成、插值式双图像到视频生成、组合式多图像到视频生成以及文本-图像-视频到视频生成四大核心任务。数据构建过程深度融合了真实世界与合成数据源,并借助前沿视觉语言模型如Qwen3-VL与Gemini2.5-Pro进行语义解析与质量过滤。每个测试案例均经过专家级标注,确保输入模态的自由组合与复杂语义逻辑的完整性,从而构建出一个包含1030个高质量样本的评估体系。
特点
IntelligentVBench的核心特征在于其针对下一代智能视频生成的前瞻性设计。该基准测试突破了传统评估框架的局限,首次系统性地将抽象推理与多模态组合能力纳入量化评估范畴。其任务设计模拟了真实世界中人机交互的复杂性,支持自由形式、交错排列的多模态输入,如图像、文本和视频的任意组合。评估体系采用“VLM-as-a-judge”范式,通过指令遵循、条件保持和整体视觉质量三个维度进行精细化评分,确保了评估结果的可靠性与全面性。这一设计使得IntelligentVBench成为推动统一视频生成模型向更高层次认知能力演进的关键工具。
使用方法
使用IntelligentVBench进行模型评估需遵循其标准化的零样本测试流程。研究者将待评估的统一视频生成模型接入基准测试框架,模型需直接处理基准提供的自由形式多模态输入,并生成对应的视频序列。评估过程完全自动化,由指定的视觉语言模型(如Gemini2.5-Pro)作为评判官,依据预设的评分标准对生成视频进行多维度分析。最终输出包含指令遵循、条件保持和整体视觉质量三个指标的量化分数,以及综合平均分与最低分,为模型在复杂推理与组合任务上的性能提供客观、可比较的基准数据。
背景与挑战
背景概述
IntelligentVBench作为首个专注于评估下一代智能统一视频生成能力的综合性基准,由腾讯混元与浙江大学等机构的研究团队于2026年3月提出,旨在填补开源社区在视频生成领域与闭源系统之间的能力鸿沟。该基准的诞生源于视频生成技术从任务特定模型向统一通用框架演进的关键转折点,其核心研究问题聚焦于如何系统评估模型在自由形式多模态输入下的组合与推理能力。通过引入基于视觉语言模型作为评判者的自动化评估范式,IntelligentVBench为开源统一视频生成模型的发展提供了至关重要的性能衡量标准,推动了该领域向更高层次智能化的迈进。
当前挑战
IntelligentVBench所针对的领域挑战在于评估模型处理复杂、异构多模态输入时的组合与抽象推理能力,这超越了传统视频生成基准局限于单一任务与固定输入格式的局限性。具体而言,其构建过程面临多重挑战:一是如何设计涵盖隐式图像到视频、插值双图像到视频、组合多图像到视频及文本-图像-视频到视频的多样化任务,以全面覆盖推理与组合两大核心能力;二是如何确保评估指标的可靠性与全面性,通过精心设计的提示模板引导视觉语言模型对指令遵循、条件保持与整体视觉质量进行精准评分;三是如何保证数据的高质量与复杂性,例如在隐式图像到视频任务中需基于电影片段构建具有高度语义模糊性的指令,这对数据筛选与标注提出了极高要求。
常用场景
经典使用场景
在统一视频生成领域,IntelligentVBench作为首个专注于评估下一代智能视频生成能力的综合性基准,其经典使用场景体现在对模型多模态组合与抽象推理能力的系统性测评。该基准通过构建隐式图像到视频、插值式双图像到视频、组合式多图像到视频以及文本-图像-视频到视频四大任务,模拟了真实世界中用户以自由形式、交错多模态输入表达复杂创作意图的场景。研究者利用这一基准,能够精准衡量模型在异构输入条件下,能否实现时空连贯的视觉叙事,从而推动开放源代码模型向“全能型”智能视频生成系统演进。
实际应用
在实际应用层面,IntelligentVBench为视频内容创作、影视制作、广告设计以及交互式媒体等领域提供了关键的模型能力验证标准。例如,在影视预可视化阶段,导演可通过组合多张概念图与描述性文本,要求模型生成连贯的动态故事板,IntelligentVBench能够评估生成视频是否准确融合了指定视觉元素并遵循了叙事逻辑。在个性化视频编辑应用中,用户可上传参考图像并指令修改视频中的特定对象或背景,该基准能检验编辑结果在保持原视频时序一致性的同时,是否无缝整合了新元素。这些评估确保了模型输出符合专业级的内容创作需求,提升了生成视频的实用性与可靠性。
衍生相关工作
围绕IntelligentVBench所确立的评估框架与任务设计,衍生出了一系列旨在提升统一视频生成模型性能的经典研究工作。例如,OmniWeaving模型借鉴了该基准对组合与推理能力的强调,通过激活MLLM的“思考模式”与引入深度堆叠机制,显著提升了在IntelligentVBench各项任务上的表现。同时,该基准也激励了后续研究如VINO、UniVideo等统一架构的优化,这些工作纷纷尝试改进多模态理解与生成的协同机制,以应对基准中提出的复杂输入与高阶推理挑战。此外,基准所倡导的“VLM-as-a-Judge”评估范式也被广泛采纳,推动了利用大语言模型进行自动化、细粒度视频质量评估的新兴研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作