Envision

Name: Envision
Creator: 上海人工智能实验室
Published: 2025-12-01 23:52:31
License: 暂无描述

arXiv2025-12-01 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/opendatalab-raiser/Envision

下载链接

链接失效反馈

官方服务：

资源简介：

Envision是由上海人工智能实验室构建的一个因果事件进展基准数据集，旨在评估模型对动态世界过程的理解与生成能力。该数据集包含1,000个四阶段提示序列，覆盖自然科学与人文历史六大领域，数据来源于学术教科书和网络资源，并经由专家监督和GPT-4o生成与精炼。其创建过程基于世界知识，以时空因果约束为核心，通过链式文本描述生成多图像序列。该数据集主要应用于评估统一多模态模型和专用文本到图像模型在因果叙事连贯性、时空一致性等方面的性能，旨在解决静态单图像生成范式在建模动态过程方面的局限性，推动模型内部世界知识的真正内化。

Envision is a causal event progression benchmark dataset constructed by the Shanghai AI Laboratory, which aims to evaluate models' capabilities of understanding and generating dynamic world processes. It contains 1,000 four-stage prompt sequences covering six domains across natural sciences and humanities/history. The dataset's data is sourced from academic textbooks and web resources, and was generated and refined with GPT-4o under expert supervision. Its development is grounded in world knowledge, with spatiotemporal causal constraints as the core, and generates multi-image sequences through chained textual descriptions. This dataset is primarily used to evaluate the performance of unified multimodal models and specialized text-to-image models in terms of causal narrative coherence, spatiotemporal consistency and other aspects. It aims to address the limitations of static single-image generation paradigms in modeling dynamic processes, and promote the genuine internalization of world knowledge within models.

提供机构：

上海人工智能实验室

创建时间：

2025-12-01

原始信息汇总

Envision 数据集概述

数据集基本信息

数据集名称: Envision
许可证: MIT
任务类别: 文本到图像
主要语言: 英语
标签: 统一多模态模型, T2I
数据规模: 1K<n<10K

数据集简介

Envision 是一个综合性基准，旨在评估多模态模型在因果世界过程建模方面的统一理解和序列生成能力。该基准评估模型生成连贯、物理合理且美观的图像序列的能力，这些序列需遵循复杂的、逐步的因果叙事。

数据内容与结构

数据集中位于 data/ 目录下，包含六个专门的 JSON 文件，共同构成了连续四阶段事件进展的完整数据集。

文件列表

文件名	类别	过程类型	描述
`data/envision_bio.json`	科学	生物学	涵盖生态、进化和生命科学现象的序列（例如，原生演替、物种形成）。
`data/envision_chem.json`	科学	化学	详细描述化学反应和基本过程的序列（例如，铝热反应、沉淀、有机合成机制）。
`data/envision_phy.json`	科学	物理学	说明核心物理原理和动力学的序列（例如，动量守恒、电磁学、波动现象）。
`data/envision_geo.json`	科学	地理学	专注于地貌和地球表面过程的序列（例如，海岸侵蚀、冲积扇形成、冰川动力学）。
`data/envision_mete.json`	科学	气象学	描述大气和天气现象的序列（例如，热带气旋发展、雷暴形成、锋面系统）。
`data/envision_cul.json`	文化	历史	记录重大历史事件和长期文化变迁的序列（例如，工业革命、法国大革命、技术采用）。

数据格式

每个 JSON 文件都是一个独立事件进展对象的列表。每个对象遵循一致的架构，旨在捕捉过程的视觉状态和潜在因果机制：

index: 该序列在其领域内的唯一数字标识符。
category: 进展的总体领域，为“科学”或“文化”。
process_type: 指定学术学科的子类别（例如，“生物学”、“化学”、“历史”）。
prompts: 一个包含四个字典的列表，代表连续的四阶段进展。每个阶段字典包含：
- step: 序列号（1 到 4）。
- prompt: 高度详细、描述性的文本提示，旨在生成该阶段事件的单个特定视觉帧。
- explanation: 简洁的学术解释，详细说明将当前阶段连接到先前状态的因果转换、物理定律或机制。

数据获取

要获取完整的 Envision 数据集（包括所有六个特定领域的 JSON 文件），请使用标准 git clone 命令克隆托管在 Hugging Face 上的数据集仓库。 bash git clone https://huggingface.co/datasets/opendatalab-raiser/Envision

评估协议

使用 eval.py 脚本对生成的序列图像进行评估，该脚本通过一个强大的 VLM 作为严格的质量审核器来自动化质量评估。此过程遵循一个严格的、细粒度的、分层的评分协议，涵盖九个指标（0-5 分制）。

分层评分与权重

Envision（总体）分数 是三个主要维度的加权平均值，权重设置为优先考虑物理和因果连贯性（4:4:2 比例）。

维度	主要权重 W	子维度
一致性	40% (0.4)	语义一致性、事实一致性、时空一致性
物理性	40% (0.4)	基本属性、动力学与交互性、物理可靠性
美学	20% (0.2)	表现力、艺术质量、真实性

最终 Envision（总体）分数 计算公式为： $$ ext{总体分数} = sum_{D in { ext{Cons, Phys, Aes}}} mathbf{W}_D imes ext{平均分数}_D$$

运行评估

eval.py 脚本要求用户提供与序列提示相对应的生成图像以及 OpenAI API 密钥以启动基于 LLM 的评估。 bash python eval.py --json_path /path/to/your/sequences.json --image_dir /path/to/your/generated/images --output_dir /path/to/save/results --api_key YOUR_OPENAI_API_KEY --model gpt-4o --result_full full_results.json --result_scores scores.jsonl --max_workers 5

排行榜

有关 Envision 基准测试的最新官方结果和模型排名，请访问专用排行榜网站： https://opendatalab-raiser.github.io/Envision/

引用

如果在研究中使用 Envision 数据集或基准测试，请引用以下论文： bibtex @article{wei2025ggbench, title={Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights}, author={Tian, Juanxi and Li, Siyuan and He, Conghui and Wu, Lijun and Tan, Cheng}, journal={arXiv preprint arXiv:2512.01816}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视觉生成模型评估领域，传统基准多聚焦于静态单图像生成，难以捕捉动态因果过程。Envision基准的构建旨在填补这一空白，其核心在于构建一个基于世界知识的因果事件进展评估框架。数据集从自然科学与人文历史两大领域精心选取六个学科，涵盖物理学、化学、生物学、地理学、气象学及世界历史。通过整合学术教科书与在线资源，在专家监督下利用GPT-4o生成并优化了1000个高质量的四阶段叙事提示序列，总计4000个文本到图像提示。这些序列依据时空因果结构分层为连续与离散两种类型，以全面检验模型在不同时空约束下的世界建模能力。

使用方法

使用Envision基准时，研究者需将四阶段叙事提示序列输入待评估的文本到图像或多模态统一模型，生成对应的多图像序列。评估过程采用以GPT-4o为核心的自动化评估流程，依据预设的评分标准对生成序列在一致性、物理合理性与美学维度进行多轮独立打分，最终计算加权平均的Envision-Score。该方法确保了评估的客观性、可重复性与高效性。基准不仅用于衡量模型的生成质量，更通过理解与生成的双向验证范式，深入分析模型内部世界知识的内化程度以及两种能力在动态因果约束下的协同表现，为模型架构与训练范式的改进提供关键洞见。

背景与挑战

背景概述

Envision数据集由上海人工智能实验室于2025年12月提出，旨在解决当前多模态模型在动态世界过程建模中的核心局限。该数据集聚焦于因果事件进程的链式文本到多图像生成，其核心研究问题在于评估模型是否真正内化了世界知识，并能在时空因果约束下进行连贯的视觉叙事生成。通过整合自然科学与人文历史六大领域的1000个四阶段提示序列，Envision推动了多模态评估范式从静态单图像匹配向动态过程模拟的转变，对统一理解与生成模型的演进具有里程碑意义。

当前挑战

Envision所针对的领域挑战在于突破现有文本到图像模型仅擅长静态模式匹配的局限，要求模型具备对动态、因果性世界过程进行建模与生成的能力。具体而言，模型必须维持跨图像序列的语义一致性、时空连贯性与物理合理性，而非孤立地渲染美观的单帧。在构建过程中，挑战主要体现为如何基于世界知识设计具有明确因果结构的四阶段叙事提示，并开发能够全面评估事件级多图像序列的综合性指标Envision-Score，以量化模型在一致性、物理性与美学等多维度的表现。

常用场景

经典使用场景

在视觉生成与理解领域，Envision数据集通过构建因果事件序列，为评估文本到多图像生成模型提供了经典场景。该数据集以四阶段提示为核心，涵盖自然科学与人文历史六大领域，要求模型依据链式文本描述生成连贯的多图像序列。其典型应用在于检验模型能否在动态约束下内化世界知识，并维持时空因果一致性，从而超越静态单帧生成的局限，推动模型从孤立场景匹配转向动态过程模拟。

解决学术问题

Envision数据集主要解决了多模态生成模型中因果推理与时空一致性的核心学术问题。传统文本到图像基准侧重于静态单帧的语义匹配，导致模型过度拟合静态模式，难以建模随时间演化的动态过程。该数据集通过引入基于世界知识的因果事件进程，迫使模型在生成多图像序列时遵循物理规律与逻辑约束，从而揭示了当前模型在理解与生成能力之间的脱节，为评估统一多模态模型的动态推理能力提供了严谨框架。

实际应用

在实际应用中，Envision数据集为教育可视化、科学模拟与历史叙事生成等领域提供了评估工具。例如，在科学教育中，模型可依据该数据集生成描述化学反应或生态演替的连贯图像序列，辅助知识传达；在内容创作中，它能评估生成模型能否构建逻辑严谨的视觉故事线。其评估指标Envision-Score综合了多维度一致性、物理合理性与美学质量，为产业界筛选具备动态叙事能力的生成模型提供了可靠标准。

数据集最近研究