Envision
收藏Envision 数据集概述
数据集基本信息
- 数据集名称: Envision
- 许可证: MIT
- 任务类别: 文本到图像
- 主要语言: 英语
- 标签: 统一多模态模型, T2I
- 数据规模: 1K<n<10K
数据集简介
Envision 是一个综合性基准,旨在评估多模态模型在因果世界过程建模方面的统一理解和序列生成能力。该基准评估模型生成连贯、物理合理且美观的图像序列的能力,这些序列需遵循复杂的、逐步的因果叙事。
数据内容与结构
数据集中位于 data/ 目录下,包含六个专门的 JSON 文件,共同构成了连续四阶段事件进展的完整数据集。
文件列表
| 文件名 | 类别 | 过程类型 | 描述 |
|---|---|---|---|
data/envision_bio.json |
科学 | 生物学 | 涵盖生态、进化和生命科学现象的序列(例如,原生演替、物种形成)。 |
data/envision_chem.json |
科学 | 化学 | 详细描述化学反应和基本过程的序列(例如,铝热反应、沉淀、有机合成机制)。 |
data/envision_phy.json |
科学 | 物理学 | 说明核心物理原理和动力学的序列(例如,动量守恒、电磁学、波动现象)。 |
data/envision_geo.json |
科学 | 地理学 | 专注于地貌和地球表面过程的序列(例如,海岸侵蚀、冲积扇形成、冰川动力学)。 |
data/envision_mete.json |
科学 | 气象学 | 描述大气和天气现象的序列(例如,热带气旋发展、雷暴形成、锋面系统)。 |
data/envision_cul.json |
文化 | 历史 | 记录重大历史事件和长期文化变迁的序列(例如,工业革命、法国大革命、技术采用)。 |
数据格式
每个 JSON 文件都是一个独立事件进展对象的列表。每个对象遵循一致的架构,旨在捕捉过程的视觉状态和潜在因果机制:
index: 该序列在其领域内的唯一数字标识符。category: 进展的总体领域,为“科学”或“文化”。process_type: 指定学术学科的子类别(例如,“生物学”、“化学”、“历史”)。prompts: 一个包含四个字典的列表,代表连续的四阶段进展。每个阶段字典包含:step: 序列号(1 到 4)。prompt: 高度详细、描述性的文本提示,旨在生成该阶段事件的单个特定视觉帧。explanation: 简洁的学术解释,详细说明将当前阶段连接到先前状态的因果转换、物理定律或机制。
数据获取
要获取完整的 Envision 数据集(包括所有六个特定领域的 JSON 文件),请使用标准 git clone 命令克隆托管在 Hugging Face 上的数据集仓库。
bash
git clone https://huggingface.co/datasets/opendatalab-raiser/Envision
评估协议
使用 eval.py 脚本对生成的序列图像进行评估,该脚本通过一个强大的 VLM 作为严格的质量审核器来自动化质量评估。此过程遵循一个严格的、细粒度的、分层的评分协议,涵盖九个指标(0-5 分制)。
分层评分与权重
Envision(总体)分数 是三个主要维度的加权平均值,权重设置为优先考虑物理和因果连贯性(4:4:2 比例)。
| 维度 | 主要权重 W | 子维度 |
|---|---|---|
| 一致性 | 40% (0.4) | 语义一致性、事实一致性、时空一致性 |
| 物理性 | 40% (0.4) | 基本属性、动力学与交互性、物理可靠性 |
| 美学 | 20% (0.2) | 表现力、艺术质量、真实性 |
最终 Envision(总体)分数 计算公式为: $$ ext{总体分数} = sum_{D in { ext{Cons, Phys, Aes}}} mathbf{W}_D imes ext{平均分数}_D$$
运行评估
eval.py 脚本要求用户提供与序列提示相对应的生成图像以及 OpenAI API 密钥以启动基于 LLM 的评估。
bash
python eval.py
--json_path /path/to/your/sequences.json
--image_dir /path/to/your/generated/images
--output_dir /path/to/save/results
--api_key YOUR_OPENAI_API_KEY
--model gpt-4o
--result_full full_results.json
--result_scores scores.jsonl
--max_workers 5
排行榜
有关 Envision 基准测试的最新官方结果和模型排名,请访问专用排行榜网站: https://opendatalab-raiser.github.io/Envision/
引用
如果在研究中使用 Envision 数据集或基准测试,请引用以下论文: bibtex @article{wei2025ggbench, title={Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights}, author={Tian, Juanxi and Li, Siyuan and He, Conghui and Wu, Lijun and Tan, Cheng}, journal={arXiv preprint arXiv:2512.01816}, year={2025} }

- 1通过上海人工智能实验室 · 2025年



