Envision

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/opendatalab-raiser/Envision

下载链接

链接失效反馈

官方服务：

资源简介：

Envision是一个全面的基准数据集，旨在评估多模态模型的统一理解和顺序生成能力，特别关注因果世界过程的建模。该数据集包含1000个四阶段提示，涵盖六个科学和人文学科领域，用于链式文本到多图像生成任务。

Envision is a comprehensive benchmark dataset intended to evaluate the unified understanding and sequential generation capabilities of multimodal models, with a special focus on the modeling of causal world processes. This dataset includes 1,000 four-stage prompts spanning six fields of natural sciences and humanities, tailored for chained text-to-multi-image generation tasks.

创建时间：

2025-11-29

原始信息汇总

Envision 数据集概述

数据集简介

Envision 是一个用于评估多模态模型统一理解与序列生成能力的综合性基准，特别侧重于因果世界过程的建模。该基准评估模型生成连贯、物理合理且美观的图像序列的能力，这些序列需遵循复杂的、逐步递进的因果叙事。

核心目标

旨在解决当前多模态模型在训练和评估中依赖静态单图像生成所导致的局限性，如过度拟合静态模式匹配和语义融合，以及难以对随时间展开的动态过程进行建模的根本性问题。

数据集内容

数据规模：包含 1000 个四阶段提示。
领域覆盖：涵盖六个科学与人文领域。
数据结构：包含序列提示和真实过程描述。

评估方法

评估通过 eval.py 脚本进行，使用商业视觉语言模型作为评判者，遵循严格的分层协议。

主要评估维度与权重

综合质量分数基于三个主要维度计算，权重比为 4:4:2：

一致性：权重 40%，包含语义一致性、事实一致性、时空一致性。
物理性：权重 40%，包含基本属性、动力学与交互性、物理可靠性。
美学：权重 20%，包含表现力、艺术质量、真实性。

子维度权重

每个主维度下的子维度权重近似相等，约为 0.33、0.33、0.34。

数据获取

可通过以下 Git 命令下载数据集： bash git clone https://huggingface.co/datasets/opendatalab-raiser/Envision

官方资源

排行榜：最新官方结果与模型排名请访问：https://opendatalab-raiser.github.io/Envision/

引用信息

若在研究中使用本数据集或基准，请引用以下论文： bibtex @article{wei2025ggbench, title={Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights}, author={Tian, Juanxi and Li, Siyuan and He, Conghui and Wu, Lijun and Tan, Cheng}, journal={arXiv preprint arXiv:}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能领域，多模态模型正致力于超越单模态表示的局限，但现有评估多聚焦于静态单图像生成，难以衡量模型对动态因果世界过程的建模能力。Envision基准的构建正是为了填补这一空白，其核心在于围绕时空因果性，系统性地重组了现有评估维度，并精心编制了涵盖六个科学与人文领域的一千个四阶段提示。这些提示均基于世界知识进行结构化设计，旨在引导模型生成遵循复杂因果叙事的连贯图像序列，从而为评估链式文本到多图像生成提供了严谨的框架。

特点

该数据集的核心特征在于其评估框架的全面性与前瞻性。它不仅将评估对象从单幅图像拓展至序列帧，更引入了名为Envision-Score的综合度量标准。该标准深度融合了多维度一致性、物理合理性与美学价值，通过预设的权重比例进行量化评分。这种设计使得评估能够超越表面的模式匹配，深入检验模型是否真正内化了世界知识并遵循因果时序约束。基准覆盖的广泛领域确保了评估的普适性与挑战性，为揭示模型在动态过程建模中的核心瓶颈提供了关键视角。

使用方法

研究人员可通过指定的Git命令获取包含序列提示和真实过程描述的数据集。使用该基准进行评估时，需运行配套的`eval.py`脚本。该脚本利用商业视觉语言模型作为评判者，通过多线程执行自动化质量评估。用户需提供包含生成图像序列的JSON文件路径、图像存储目录、输出路径以及必要的API密钥等参数。脚本将依据预设的层次化协议，从一致性、物理性和美学三个主要维度及其子维度进行加权计算，最终输出整体评分与详细结果，从而实现对模型性能的系统化度量与比较。

背景与挑战

背景概述

在人工智能领域，多模态模型正致力于超越单模态表示的局限，通过统一理解与生成能力来模拟动态世界过程。Envision数据集于2025年由Tian Juanxi、Li Siyuan等研究人员提出，旨在评估模型对因果世界过程的建模能力，其核心研究问题聚焦于链式文本到多图像生成中的时空一致性与叙事连贯性。该数据集包含涵盖科学与人文领域的千条四阶段提示，通过重构现有评估维度，推动了多模态模型从静态模式匹配向动态过程建模的范式转变，对提升模型内部世界知识的内化具有深远影响。

当前挑战

Envision数据集旨在解决多模态模型在因果世界过程建模中的核心挑战，即如何生成在语义、事实及时空维度上保持一致的图像序列，以克服静态单图像生成导致的动态过程表征不足。在构建过程中，挑战体现在如何基于世界知识设计结构化因果事件提示，并确保评估指标能全面衡量生成序列的物理合理性与美学质量，同时需协调多维度评分以准确反映模型性能。

常用场景

经典使用场景

在跨模态人工智能领域，Envision数据集被广泛用于评估模型对因果世界过程的建模能力。其核心应用场景在于测试多模态模型能否根据复杂的因果叙事提示，生成一系列在语义、事实及时空维度上连贯且符合物理规律的图像序列。这一过程不仅要求模型具备静态的图像合成技巧，更需深入理解事件在时间轴上的动态演变逻辑，从而推动模型从单一图像生成向多帧序列推理的范式转变。

实际应用

在实际应用中，Envision数据集为开发能够理解和模拟现实世界动态过程的智能系统提供了重要支撑。例如，在虚拟内容创作、教育模拟、科学可视化等领域，模型需要依据文本描述生成符合因果逻辑的图像序列，以辅助故事板设计、实验过程演示或历史事件重建。该数据集通过涵盖科学与人文学科的多样化提示，推动了生成模型在需要时序推理与物理约束的应用场景中的实用化进展。

衍生相关工作

围绕Envision数据集，研究者们已展开一系列衍生工作，主要集中在提升多模态模型的序列生成能力与评估方法上。例如，有研究借鉴其因果叙事框架，开发了专注于特定领域（如化学反应或生物进化）的时序生成基准；另有工作基于Envision-Score的多维评估思想，设计了更细粒度的度量指标以分析模型在时空一致性上的失败模式。这些工作共同深化了对动态过程建模的理解，并推动了统一多模态架构在复杂推理任务中的性能优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集