RISE-Video

github2026-02-06 更新2026-02-07 收录

下载链接：

https://github.com/VisionXLab/Rise-Video

下载链接

链接失效反馈

官方服务：

资源简介：

RISE-Video是一个面向推理的文本图像到视频（TI2V）合成基准测试，将评估重点从表面美学转向深层认知推理。该数据集包含467个人工精心标注的样本，涵盖八个严格的类别：常识知识、主题知识、感知知识、社会知识、逻辑能力、经验知识、空间知识和时间知识，为探索模型在不同维度的智能提供了结构化的测试平台。

RISE-Video is a reasoning-oriented text-to-image-to-video (TI2V) synthesis benchmark that shifts the evaluation focus from superficial aesthetics to deep cognitive reasoning. This dataset contains 467 manually and meticulously annotated samples, covering eight rigorously defined categories: common sense knowledge, topic knowledge, perceptual knowledge, social knowledge, logical reasoning ability, experiential knowledge, spatial knowledge, and temporal knowledge, providing a structured testbed for exploring model intelligence across diverse dimensions.

创建时间：

2026-02-05

原始信息汇总

RISE-Video 数据集概述

数据集简介

RISE-Video 是一个面向推理的文本-图像到视频（TI2V）合成基准测试。该数据集将评估重点从表面美学转向深层认知推理，旨在探究视频生成模型对隐含世界规则的理解能力。

数据集构成

样本数量：包含 467 个经过人工精心标注的样本。
类别划分：涵盖八个严格的推理类别：
1. 常识知识
2. 主题知识
3. 感知知识
4. 社会知识
5. 逻辑能力
6. 经验知识
7. 空间知识
8. 时间知识

评估框架

评估维度：引入包含四个指标的多维评估协议：
1. 推理对齐
2. 时间一致性
3. 物理合理性
4. 视觉质量
自动化评估：提出了一个利用大型多模态模型来模拟以人为中心评估的自动化流程，以支持可扩展的评估。

基准测试结果

对 11 个具有代表性的 TI2V 模型进行了全面评估，揭示了系统性的推理局限性。主要模型得分（按加权分数排序）如下：

Hailuo2.3：加权分数 79.4%，准确率 22.5%
Veo3.1：加权分数 76.4%，准确率 22.3%
Sora-2：加权分数 77.0%，准确率 21.3%
Wan2.6：加权分数 77.8%，准确率 21.3%
Kling2.6：加权分数 72.1%，准确率 19.5%

数据获取与使用

数据地址：数据集（包括首帧图像和文本提示）可通过 https://huggingface.co/datasets/VisionXLab/RISE-Video 获取。
数据结构：数据以 JSON 文件（https://huggingface.co/datasets/VisionXLab/RISE-Video/blob/main/v5.json）形式组织，包含 task_id 等字段。
生成视频组织格式：{模型名称}/{样本类别}/{任务ID}，生成的视频路径需写入上述 JSON 文件的 "video_path" 字段。

评估流程

帧提取：运行提供的脚本从视频中提取帧，用于“推理对齐”维度评估和可视化，提取的帧路径将自动写入 JSON 文件的 "frame_path" 字段。
运行评估：配置评估脚本参数（如数据 JSON 路径、API 密钥等）后运行 eval.py，可在相应文件夹中查看评估结果和分数。

引用

如需使用本数据集，请引用相关论文：

@misc{liu2026risevideovideogeneratorsdecode, title={RISE-Video: Can Video Generators Decode Implicit World Rules?}, author={Mingxin Liu and Shuran Ma and Shibei Meng and Xiangyu Zhao and Zicheng Zhang and Shaofeng Zhang and Zhihang Zhong and Peixian Chen and Haoyu Cao and Xing Sun and Haodong Duan and Xue Yang}, year={2026}, eprint={2602.05986}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.05986}, }

搜集汇总

数据集介绍

构建方式

在视频生成领域，评估模型对隐含世界规则的理解能力已成为一项关键挑战。RISE-Video数据集通过精心设计的人工标注流程构建而成，涵盖了常识知识、主体知识、感知知识、社会知识、逻辑能力、经验知识、空间知识与时间知识等八个严谨类别。每个样本均经过细致筛选与标注，确保内容能够有效探测模型在不同认知维度上的推理能力，从而为文本-图像到视频合成任务提供了一个结构化的测试平台。

使用方法

研究人员可通过Hugging Face平台获取数据集中包含的首帧图像与文本提示，用于生成相应视频。生成结果需按照指定目录结构进行组织，并将视频路径记录于提供的JSON文件内。随后，利用配套工具进行帧提取与评估流程配置，通过运行评估脚本自动计算模型在各维度上的得分。这一完整流程支持对多种视频生成模型的性能进行标准化比较与深入分析。

背景与挑战

背景概述

随着文本-图像到视频生成技术的迅猛发展，评估生成模型的能力逐渐从表层视觉质量转向深层次认知推理。RISE-Video数据集应运而生，由Mingxin Liu等研究人员于2026年构建，旨在系统性地探究视频生成模型对隐含世界规则的解码能力。该数据集涵盖常识知识、主体知识、感知知识、社会知识、逻辑能力、经验知识、空间知识与时间知识等八个严谨类别，共计467个人工标注样本，为评估模型在多维认知维度上的智能表现提供了结构化测试平台。其核心研究问题聚焦于生成视频是否符合同人类一致的深层推理与物理合理性，对推动生成式人工智能向更高阶认知理解迈进具有重要影响力。

当前挑战

RISE-Video数据集致力于解决文本-图像到视频合成领域中的深层推理评估挑战，其核心在于超越传统以视觉保真度为焦点的评价体系，转而衡量模型对复杂世界规则的隐式理解与逻辑一致性。构建过程中的主要挑战体现在样本标注的严谨性与多维评估体系的设计上：需要确保人类标注者能够精准捕捉视频内容在常识、逻辑、时空等抽象维度的合理性，同时开发出兼顾自动化与人类评估一致性的高效评测流程。此外，如何将多样化的认知类别转化为可量化、可比较的指标，并保持评估结果在不同模型间的公平性与可解释性，亦是该数据集构建中面临的关键难题。

常用场景

经典使用场景

在视频生成领域，RISE-Video数据集作为一个推理导向的基准测试工具，其经典使用场景在于系统评估文本-图像到视频生成模型的深层认知能力。该数据集通过涵盖常识知识、主体知识、感知知识、社会知识、逻辑能力、经验知识、空间知识与时间知识等八个严谨类别，为研究者提供了一个结构化的测试平台，用以探究模型在多样化维度上的智能表现。

解决学术问题

RISE-Video数据集主要解决了视频生成研究中长期存在的评估瓶颈，即过度依赖表面美学而忽视内在推理逻辑的问题。它通过引入推理对齐、时序一致性、物理合理性与视觉质量等多维度评估指标，为学术界提供了量化模型认知缺陷的标准化框架，从而推动生成式人工智能向更具逻辑性与可靠性的方向发展。

实际应用

在实际应用层面，RISE-Video数据集可服务于视频生成系统的质量监控与优化流程。例如，在影视制作、虚拟现实内容生成以及教育媒体开发等领域，开发者能够借助该数据集的评估协议，精准识别生成视频在物理规律、社会常识或时间逻辑上的偏差，进而提升生成内容的可信度与实用性。

数据集最近研究