Envision

github2025-12-02 更新2025-12-24 收录

下载链接：

https://github.com/OpenRaiser/Envision

下载链接

链接失效反馈

官方服务：

资源简介：

Envision是一个全面的基准测试，旨在评估多模态模型的统一理解和顺序生成能力，特别关注因果世界过程的建模。该基准测试评估模型生成连贯、物理上合理且美观的图像序列的能力，这些图像序列遵循复杂的、逐步的因果叙述。

Envision is a comprehensive benchmark designed to evaluate the unified understanding and sequential generation capabilities of multimodal models, with a particular focus on modeling causal world processes. This benchmark assesses models' ability to generate coherent, physically plausible, and aesthetically pleasing image sequences that follow complex, step-by-step causal narratives.

创建时间：

2025-11-29

原始信息汇总

Envision 数据集概述

数据集简介

Envision 是一个综合性基准测试，旨在评估多模态模型的统一理解和序列生成能力，特别侧重于因果世界过程的建模。该基准测试评估模型生成连贯、物理合理且美观的图像序列的能力，这些序列需遵循复杂的、逐步递进的因果叙事。

数据集内容与结构

核心内容：数据集包含用于链式文本到多图像生成的序列提示和真实过程描述。
规模：包含 1000 个四阶段提示。
领域覆盖：涵盖六个科学与人文领域。
评估重点：从单图像评估转向序列帧评估，检验模型是否真正内化了世界知识并遵守因果-时间约束。

评估方法

评估通过 eval.py 脚本进行，使用商业视觉语言模型作为评判者，遵循严格的分层协议。

主要评估维度与权重

综合质量分数基于三个主要维度计算，权重比为 4:4:2：

一致性：权重 40%。包含语义一致性、事实一致性、时空一致性子维度。
物理性：权重 40%。包含基本属性、动态与交互性、物理可靠性子维度。
美学：权重 20%。包含表现力、艺术质量、真实性子维度。

子维度权重

每个主维度下的子维度权重近似相等，约为 0.33、0.33 和 0.34。

运行评估

运行 eval.py 脚本需指定以下关键参数：

--json_path：包含序列提示和详情的 JSON 文件路径。
--image_dir：包含步骤图像的索引文件夹的根目录。
--output_dir：保存评估结果的目录。
--api_key：用于调用评估模型的 OpenAI API 密钥。
--model：用于评估的 LLM 模型名称。
--max_workers：评估的最大并发工作线程数。

数据获取

可通过以下命令下载数据集： bash git clone https://huggingface.co/datasets/opendatalab-raiser/Envision

排行榜

最新的官方结果和模型排名请访问专用排行榜网站：https://opendatalab-raiser.github.io/Envision/

社区贡献

鼓励研究社区扩展和增强 Envision 基准测试，欢迎以新模型结果、额外评估指标或新因果过程类别等形式做出贡献。

引用

若在研究中使用 Envision 数据集或基准测试，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在人工智能领域，多模态模型正致力于超越单一模态表示的局限，然而其训练与评估往往聚焦于静态单图像生成，这限制了模型对动态世界过程的建模能力。Envision数据集的构建正是为了应对这一挑战，它基于世界知识并以时空因果关系为结构，精心重组了现有的评估维度。该数据集包含1000个四阶段提示，广泛覆盖了科学与人文领域的六个不同范畴，旨在通过链式文本到多图像生成任务，系统地评估模型对因果事件进程的理解与生成能力。

特点

Envision数据集的核心特征在于其专注于评估模型对因果世界过程的统一理解与序列生成能力。它通过引入一个名为Envision-Score的综合性评估指标，将多维度一致性、物理合理性与美学品质融为一体，从而超越了传统静态图像生成的评价框架。该基准测试揭示了专用文本到图像模型在美学渲染上的优势与其内在世界知识匮乏之间的差距，同时表明统一多模态模型在因果叙事连贯性上表现更优，但在时空一致性方面仍面临根本性挑战，凸显了动态世界建模的复杂性。

使用方法

研究人员可通过指定的Git命令下载Envision数据集，其中包含了序列提示与真实过程描述。对生成序列图像的评估由`eval.py`脚本自动化执行，该脚本利用商业视觉语言模型作为评判者，并遵循严格的分层协议。使用脚本时，需提供包含序列提示的JSON文件路径、生成图像的目录、输出路径以及API密钥等参数。评估过程采用多线程执行，从一致性、物理性和美学三个主要维度及其子维度进行加权评分，最终得出综合质量分数，为模型性能提供了系统且可复现的量化分析。

背景与挑战

背景概述

在人工智能领域，多模态模型正致力于超越单模态表示的局限，通过统一理解与生成能力来模拟动态世界过程。Envision数据集于2025年由Tian Juanxi、Li Siyuan等研究人员提出，旨在评估模型对因果世界过程的建模能力。该数据集聚焦于链式文本到多图像生成任务，包含跨越科学与人文领域的千个四阶段提示，核心研究问题在于推动模型从静态图像生成转向对时空因果叙事的连贯建模。Envision的建立为多模态研究提供了新的评估基准，促进了模型对世界知识的内化与动态过程生成能力的探索，对推动通用人工智能的发展具有显著影响力。

当前挑战

Envision数据集所解决的领域问题在于多模态模型对因果世界过程的序列生成与理解，其挑战体现在模型需在语义一致性、事实准确性与时空连贯性之间取得平衡，避免过度依赖静态模式匹配而忽略动态演化逻辑。构建过程中的挑战涉及如何基于世界知识结构化设计因果事件提示，确保多阶段叙事在物理合理性与美学表达上的统一。此外，评估体系需整合多维一致性、物理性与美学指标，以全面衡量生成序列的质量，这对自动化评分方法的可靠性与泛化性提出了较高要求。

常用场景

经典使用场景

在跨模态人工智能领域，Envision数据集作为评估多模态模型因果世界过程建模能力的基准，其经典使用场景聚焦于链式文本到多图像生成任务。研究者利用该数据集包含的六大人文与科学领域、共计千条四阶段因果叙事提示，系统检验模型能否依据时序与逻辑约束，生成语义连贯、物理合理且视觉美观的图像序列。这一场景不仅挑战模型对动态过程的理解，更推动其从静态模式匹配向动态世界建模的范式转变。

解决学术问题

Envision数据集旨在解决多模态研究中的核心难题：现有模型因过度依赖单图像生成任务，导致其在建模随时间演化的动态过程时表现乏力，难以内化世界知识并保障时空一致性。该数据集通过引入结构化因果事件进程，重新组织评估维度，并设计综合评分指标Envision-Score，系统量化模型在一致性、物理合理性与美学质量等多维度的性能。其意义在于揭示了专注于因果孤立单图像的局限，促进了动态推理与生成能力的发展，为统一理解与生成模型的研究提供了关键方向。

衍生相关工作

围绕Envision数据集，研究社区已衍生出一系列探索统一多模态理解与生成的前沿工作。这些工作主要集中于改进模型架构以增强时空一致性，例如设计专门的记忆模块或因果注意力机制来维持跨帧叙事连贯性；同时，也有研究借鉴其评估范式，开发了针对视频生成或长序列推理的新基准。此外，部分工作尝试将Envision-Score的评估维度扩展至更细粒度的物理属性分析，或将其与人类偏好对齐，进一步推动了动态过程建模技术的迭代与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集