VideoVerse

github2025-10-14 更新2025-10-15 收录

下载链接：

https://github.com/Zeqing-Wang/VideoVerse

下载链接

链接失效反馈

官方服务：

资源简介：

VideoVerse是一个从世界模型角度评估当前文本到视频生成模型的基准数据集。它涵盖静态和动态两个维度，每个维度包含多个对T2V模型至关重要的世界模型级和基础级评估方面。

VideoVerse is a benchmark dataset designed to evaluate current text-to-video (T2V) generation models from the perspective of world models. It covers two dimensions: static and dynamic, each of which includes multiple world model-level and fundamental-level evaluation aspects that are critical for T2V models.

创建时间：

2025-09-26

原始信息汇总

VideoVerse数据集概述

数据集基本信息

数据集名称: VideoVerse
核心定位: 从世界模型角度评估文本到视频生成模型的基准
官方论文: VideoVerse: How Far is Your T2V Generator from a World Model?

数据集特点

评估维度: 涵盖静态和动态两个维度
评估层面: 包含世界模型级别和基础级别的评估方面
评估重点: 针对文本到视频生成模型的关键能力评估

数据集结构

提示文件: prompt/prompts_of_VideoVerse.json
视频组织: 使用字典键名命名生成的视频文件
目录结构:

VIDEO_FOLDER/ 8f348e44-546c-4319-aefa-b860c02d9cbc.mp4 dc4fa681-8b4a-413d-9571-29af7aa36c2e.mp4 DICT_KEY.mp4

评估方法

Gemini 2.5 Pro评估

视频要求: 需要上传至提供公开URL的平台
评估脚本: scripts/eval_with_Gemini_like_video_url.py
结果输出: eval_res/eval_res.json
总结脚本: scripts/cal_acc.py

开源VLM评估

支持模型: 如QwenVL等开源视觉语言模型
视频放置: 直接存放在eval_videos目录
评估脚本: scripts/eval_with_other_vlm.py

相关资源

项目网页: https://www.naptmn.cn/Homepage_of_VideoVerse/
Huggingface数据集: https://huggingface.co/datasets/NNaptmn/VideoVerse
排行榜: https://www.naptmn.cn/Homepage_of_VideoVerse/#leaderboard
问题反馈: https://github.com/Zeqing-Wang/VideoVerse/issues

搜集汇总

数据集介绍

构建方式

在文本到视频生成领域，VideoVerse基准的构建遵循系统化设计原则，围绕世界模型视角展开。该数据集通过精心设计的提示词文件组织评估内容，涵盖静态与动态两大维度，每个维度进一步细分为世界模型层级与基础层级的评估要素。构建过程中，团队基于对视频生成任务本质的深入理解，将抽象的世界模型概念转化为可量化的评估指标，确保每个评估维度都能准确反映生成视频在物理规律、事件逻辑等方面的合理性。

特点

VideoVerse基准的突出特点在于其多维度的评估体系设计，既关注视频生成的表面质量，更深入探究其内在的世界模型契合度。该数据集通过精心划分的评估维度，能够全面衡量文本到视频模型在时空一致性、物理规律遵循等方面的表现。其评估框架兼具理论深度与实践可操作性，既包含对基础生成能力的检验，也涉及对复杂场景理解的评估，为研究者提供了深入分析模型局限性的有效工具。

使用方法

使用VideoVerse进行评估时，研究者首先需要根据标准化的提示词文件生成对应视频，并按照指定格式组织文件目录。评估过程支持两种主要方式：基于Gemini 2.5 Pro的云端评估需要将视频上传至公共可访问平台，通过API接口获取分析结果；而使用开源视觉语言模型时则可在本地直接处理视频文件。完成评估后，系统会生成详细的性能报告，帮助研究者准确了解模型在不同维度的表现特征。

背景与挑战

背景概述

随着生成式人工智能技术的飞速发展，文本到视频生成模型已成为计算机视觉与多媒体领域的前沿研究方向。VideoVerse数据集由研究团队于2025年创建，旨在从世界模型视角系统评估文本到视频生成模型的综合能力。该数据集通过构建静态与动态双维度评估框架，涵盖物理规律理解、时空一致性等核心认知要素，为衡量生成视频的真实性与逻辑性建立了标准化基准，对推动具身智能与通用视频生成研究具有里程碑意义。

当前挑战

当前文本到视频生成领域面临的核心挑战在于模型对物理世界的深度认知能力，包括动态场景中物体运动的物理合理性、复杂事件链的因果逻辑一致性等关键问题。在数据集构建过程中，需克服多维度评估指标的系统性设计难题，既要保证提示词能有效触发世界模型级响应，又需协调不同视觉语言模型的评估标准，同时解决大规模视频生成与分布式评估的技术整合问题。

常用场景

经典使用场景

在文本到视频生成技术快速发展的背景下，VideoVerse数据集作为评估基准，主要用于系统检验各类T2V模型在静态与动态维度上的生成能力。其经典应用场景涵盖对模型物理规律理解、时空一致性保持等世界模型级属性的量化分析，为研究者提供了标准化的性能对比框架。

实际应用

在实际应用层面，VideoVerse为商业视频生成平台的算法优化提供了验证工具，助力提升教育科普、影视预演等场景的生成质量。其标准化评估流程可集成至产品开发周期，辅助企业精准定位模型缺陷，显著降低人工评估成本，推动生成式AI技术在多媒体领域的落地进程。

衍生相关工作

基于该数据集衍生的经典研究包括结合Gemini 2.5 Pro等大语言模型的自动化评估框架，以及适配QwenVL等开源视觉语言模型的轻量化评测方案。这些工作不仅拓展了多模态评估的技术路径，更催生了面向特定场景的模型优化策略，形成了持续迭代的良性研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集