ImageTime

github2026-06-29 更新2026-07-01 收录

下载链接：

https://github.com/gintmr/ImagineTime

下载链接

链接失效反馈

官方服务：

资源简介：

ImageTime是一个用于通过时空一致性探究视觉世界建模的基准数据集，要求模型生成包含动作四个有序关键状态的单张图像，以评估视觉世界建模能力。数据集包含750个案例，涵盖22个领域，每个案例有四个关键状态：初始、开始、过渡和最终。

创建时间：

2026-05-30

原始信息汇总

数据集概述：ImageTime

ImageTime 是一个用于评测图像模型是否具备时空一致性视觉世界建模能力的基准数据集。

核心任务

模型根据一个动作指令（可附带一张参考图像固定初始状态），生成一张包含四个有序关键状态（2×2 运动面板布局）的单张图像：

位置	时间状态	说明
左上	t₁ initial	初始状态
右上	t₂ onset	开始状态
左下	t₃ transition	过渡状态
右下	t₄ final	最终状态

该任务比单帧生成更具时间维度挑战性，能够捕获单帧基准无法发现的五种常见失败模式：最终状态过早出现、关键交互缺失、身份/场景漂移、物体重复以及因果顺序违反。

数据集规模

750 个基准测试案例，覆盖 22 个领域（375 个动作概念 × 2 个变体）
每个案例包含 4 个有序关键状态

评测体系

能力层级树（L0–L6）

层级	名称	说明
L0	Static	静态场景
L1	Identity	身份保持
L2	Spatial	空间关系
L3	Object	物体一致性
L4	Interaction	交互关系
L5	Causal	因果关系
L6	Constraint	约束条件

评分维度

C0–C9（能力评分）：布局、实体一致性、空间连贯性、运动连续性、时间顺序、因果关系、交互、约束敏感性、整体质量
D0–D14（诊断子评分）：提供具体视觉证据（如过渡可见性、数量守恒、遮挡一致性等）
使用 GPT-5.5 作为结构化 VLM 评判器，输出评分、置信度和失败标签

排行榜（纯提示词设置）

不提供参考图像，单次生成，无重试或人工挑选。

排名	模型	C 均值	D 均值	总分
🏆 1	GPT Image 2	7.86	7.87	7.86
2	Nano Banana 2	7.43	7.47	7.45
3	Seedream 5.0 Lite	7.13	7.20	7.16
4	FLUX.2 Pro	5.92	6.28	6.10
5	Z-Image-Turbo	5.14	5.69	5.41
6	Qwen-Image-2512	5.09	5.55	5.32
7	HunyuanImage-2.1	4.91	5.04	4.98
8	SDXL	1.49	1.64	1.57

结果表明，维持一个受约束且演变的因果世界对较弱模型而言十分困难，在因果（L5）和约束（L6）层级上表现出明显的上层树形崩溃。

数据获取

完整基准数据集托管在 Hugging Face Datasets 上，可通过以下方式下载：

python from huggingface_hub import snapshot_download

path = snapshot_download( repo_id="Xin-Rui/ImageTime_Benchmark", repo_type="dataset", )

关键元数据文件

文件	描述
`metadata/cases.jsonl`	每个基准案例一行
`metadata/prompt_only_generations.jsonl`	每个已发布生成图像一行
`metadata/prompt_only_scores.jsonl`	每个生成图像的扁平化评分
`metadata/leaderboard_by_dimension.csv`	按 C/D 维度的模型级统计
`metadata/all_scores_long.csv` / `all_scores_wide.csv`	长格式和宽格式评分表

许可证

基准数据采用 CC BY-NC 4.0（非商业用途）许可证发布。

搜集汇总

数据集介绍

构建方式

视觉生成模型虽已能绘制出令人惊叹的单帧图像，但其对时间维度上世界状态的连贯建模能力仍是一个未解之谜。为系统探测这一问题，ImageTime基准数据集应运而生。该数据集覆盖22个领域的375个动作概念，每个概念以两种变体呈现，共构建750个测试案例。每个案例采用2×2四宫格布局，强制模型将动作分解为初始、起始、过渡和最终四个有序关键状态，并整合于单一图像之中。这种设计既超越单帧生成的时间要求，又规避了稠密视频动态带来的干扰因素，将评估聚焦于序列建模的核心挑战。

特点

ImageTime数据集的核心创新在于其层次化的能力评估体系。研究团队构建了L0至L6的渐进式能力树，从静态属性理解逐级跃迁至约束条件下的因果推理，使模型在哪个层级开始崩溃一目了然。评估采用GPT-5.5作为结构化裁判，沿C0至C9能力轴和D0至D14诊断轴进行双轨评分，前者判断模型是否完成任务，后者揭示成败的视觉证据。该体系特别捕获了单帧基准无法发现的五种典型失败模式，包括状态提前出现、关键交互缺失、身份场景漂移、物体重复生成及因果顺序错乱。

使用方法

研究人员可通过Hugging Face平台便捷获取完整数据集，利用snapshot_download函数一键下载包含750个案例的全部资源。使用过程中，一个严格的纯提示测试协议被推行：模型仅依据文本指令或可选的初始状态参考图进行单次生成，避免人工挑选或多轮修正的干扰。数据集提供详尽的元数据文件，包括案例清单、生成结果、评分记录及按维度排序的排行榜，便于研究者进行深入分析与横向对比。评估脚本和评分标准均公开于代码仓库，支持复现与扩展研究。

背景与挑战

背景概述

ImageTime是由电子科技大学Xinrui Wu与Lichen Huang于2026年联合提出的视觉世界建模基准数据集。该研究旨在探测量图像生成模型能否在单帧图像中维持一个连贯的视觉世界，其核心任务要求模型生成包含时序上四个有序关键状态（初始、开始、过渡、终结）的运动图。与仅捕捉静态瞬间的单帧生成基准不同，ImageTime通过时空一致性作为行为探针，考察模型是否能在演进过程中保持实体身份、空间关系与因果秩序。该基准覆盖22个领域、750个案例，并引入L0至L6七层能力树与C0至C9能力评分体系，为评估图像模型的动态世界建模能力提供了系统化的框架，在视觉生成与理解领域具有开创性影响力。

当前挑战

ImageTime所应对的领域挑战在于，现有图像生成模型缺乏对时间维度上视觉世界连贯演变的建模能力，传统单帧生成基准无法捕获诸如过早终结状态、关键交互缺失、身份或场景漂移、对象重复以及因果顺序违反等失败模式。在构建过程中，主要挑战包括：设计四关键帧协议以避免密集视频动力学带来的混淆，同时确保时序要求足够明确；构建跨度广泛的领域与动作概念体系（375个动作概念×2种变体），以评估模型的泛化能力；制定结构化VLM-as-judge评分体系（GPT-5.5），通过两轴评分（能力与诊断）与可追溯的失败标签，实现客观、细粒度的评估，避免人工主观偏差。

常用场景

经典使用场景

ImageTime基准测试专为评估视觉生成模型在静态图像中建模时序演化与因果关系的能力而设计。其核心任务要求模型根据单一动作指令生成一幅包含初始态、发作态、过渡态与终态的2×2四格运动图像，从而直接检验模型是否能够在单帧空间布局中维持对象身份、空间关系与因果顺序的一致性。该基准覆盖了22个领域的375个动作概念，共750个测试用例，特别适合用于系统性地诊断模型在时空一致性方面的五个典型失败模式，包括最终状态过早出现、关键交互缺失、身份或场景漂移、对象重复以及因果顺序错乱。这一设计使研究者能够通过直观的视觉输出来探查模型内部对物理世界动态变化规律的理解程度。

解决学术问题

ImageTime解决了视觉生成领域一个长期悬而未决的核心学术问题：现有评估基准普遍局限于单帧图像的静态质量，无法有效评测模型对于时序因果关系的建模能力。传统指标如FID或CLIP分数只能反映单帧的外观逼真度，却对跨帧的对象一致性、动作逻辑连续性以及因果约束敏感性无能为力。该基准引入了L0至L6的渐进式能力树框架，并结合GPT-5.5结构化的VLM-as-Judge评分机制，从布局检测、实体一致性、空间连贯性、运动连续性、时序顺序、因果推理、交互表现、约束敏感性与整体质量等九个维度进行深度剖析。这一方法论填补了行为探测型评估的理论空白，为揭示生成模型在视觉世界建模方面的根本性缺陷提供了可量化的诊断工具，推动了该领域从外观一致性向因果一致性的范式转型。

衍生相关工作

ImageTime的发布已经催生了一系列重要的衍生研究工作。首先，其L0至L6能力树框架被多个后续研究采纳为分析模型认知层级的基本模板，用于对比不同架构生成模型在因果推理与约束敏感方面的阶段性差异。其次，该基准设计的2×2四格运动片协议启发了视觉语言模型中跨模态时间对齐机制的研究，部分工作开始探索如何将这一结构化的时序信息反馈到模型训练阶段以增强其固有的时间感知能力。此外，VLM-as-Judge的自动评分方法被借鉴并扩展至其他动态生成任务，如视频预测与连续帧编辑的评估，形成了基于大型语言模型进行结构化视觉推理评估的新流派。这些衍生工作共同巩固了ImageTime作为视觉世界建模行为探测基石的学术地位，并持续激发着围绕因果视觉推理的深层次探索。

以上内容由遇见数据集搜集并总结生成