EscherVerse

github2026-01-05 更新2026-01-07 收录

下载链接：

https://github.com/Grady10086/EscherVerse

下载链接

链接失效反馈

官方服务：

资源简介：

EscherVerse是一个大规模、开放世界的基准和数据集，用于评估视觉语言模型中的高级空间智能（ASI）。它引入了一个新范式，统一了物理动态推理和意图驱动推理，包含开放世界、动态、以人为中心和全面的特点。数据集包含8K基准和35K训练样本，涵盖多种空间推理类别。

EscherVerse is a large-scale, open-world benchmark and dataset for evaluating advanced spatial intelligence (ASI) in vision-language models. It introduces a novel paradigm that unifies physical dynamic reasoning and intention-driven reasoning, and is characterized by open-world, dynamic, human-centric and comprehensive traits. The dataset comprises 8K benchmark samples and 35K training samples, covering multiple categories of spatial reasoning.

创建时间：

2026-01-05

原始信息汇总

EscherVerse 数据集概述

数据集简介

EscherVerse 是一个用于评估视觉语言模型中高级空间智能的大规模、开放世界基准和数据集。它引入了一种新的范式，统一了物理动态推理与意图驱动推理。

核心特性

开放世界：使用真实世界视频，而非模拟环境。
动态性：关注时间变化，而非静态场景。
以人为中心：首个用于意图驱动推理的基准。
全面性：包含 8K 基准测试样本和 35K 训练样本。

数据集构成

数据集可通过 🤗 Hugging Face 下载。

文件	描述	大小
`Escher-Bench.json`	基准评估集	8,000 个问答对
`Escher-sft.jsonl`	SFT 训练数据	35,963 个问答对
`Escher-GRPO-Subset.jsonl`	GRPO 训练子集	3,588 个样本
`video_list.json`	视频元数据	11,328 个视频

空间推理类别

物体恒存与遮挡跟踪 - 理解物体的连续性。
动态空间关系 - 推理变化中的关系。
动作与意图驱动的空间推理 - 推断人类目标。
预测与反事实推理 - 预测结果。
物体形变与状态转换 - 物理状态变化。
自我中心与异我中心参照系 - 视点推理。

快速使用

安装

bash git clone https://github.com/Grady10086/EscherVerse.git cd EscherVerse pip install -r requirements.txt

下载数据

bash

下载基准数据

huggingface-cli download Gradygu3u/Escher-Data --local-dir ./data

运行评估

支持本地模型（如 Qwen3-VL-8B）和 API 模型（如 GPT-4o）。

支持模型

本地模型：qwen3-vl-8b、qwen3-vl-4b、qwen3-vl-2b、qwen2.5-vl-7b、qwen2.5-vl-3b、llava-onevision-7b、internvl3-8b。 API 模型：gpt-4o、gpt-4o-mini、gemini-2.5-pro、gemini-2.5-flash、claude-3.5-sonnet。

基准排行榜（部分）

排名	模型	总体得分	以人为中心	以物体为中心
1	Gemini-2.5-Pro	57.26%	49.70%	49.18%
2	Escher-8B-SFT	49.85%	-	-
3	Qwen3-VL-32B-Thinking	49.58%	49.70%	49.18%

训练数据格式

训练数据格式包含 messages（用户与助手对话）、videos（视频文件名列表）和 metadata（类别、场景类型、问题类型等）。

引用

bibtex @inproceedings{escherverse2026, title={EscherVerse: An Open World Benchmark and Dataset for Advanced Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding}, author={Anonymous}, booktitle={CVPR}, year={2026} }

许可证

本项目采用 CC BY-NC 4.0 许可证。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，构建一个能够全面衡量高级空间智能的数据集至关重要。EscherVerse数据集通过整合真实世界视频资源，构建了一个大规模、开放世界的基准测试集。其构建过程首先从海量现实场景视频中筛选出超过一万个片段，并基于这些视频生成了涵盖八个核心空间推理类别的问答对。具体而言，构建团队设计了包含八千个样本的基准评估集以及三万五千余个监督微调训练样本，每个样本均关联了视频元数据，确保了数据在物理动态推理与意图驱动推理两个维度的丰富性与代表性。

特点

该数据集在高级空间智能评估领域展现出鲜明的特色。其核心特征在于首次将物理动态推理与意图驱动推理统一于一个评估框架内，突破了传统静态场景分析的局限。数据集全部采用非模拟的真实世界动态视频，确保了评估环境的高度真实性。尤为突出的是，它开创性地引入了以人为中心的意图驱动推理基准，要求模型不仅理解物体的空间变化，还需推断引致这些变化的人类目标。数据集规模宏大，提供了涵盖对象恒常性、动态空间关系、预测与反事实推理等六类复杂任务的多样化评估场景。

使用方法

对于研究人员而言，EscherVerse数据集提供了标准化的评估与训练流程。用户可通过Hugging Face平台便捷下载基准数据与训练样本。评估脚本支持本地部署的视觉语言模型以及通过API调用的云端模型，用户仅需指定模型名称、数据路径及视频目录即可启动自动化评估，并生成详细的性能指标。在模型训练方面，数据集提供了格式规范的监督微调数据，便于研究者直接加载并进行模型适配。数据集还包含一个经过筛选的GRPO训练子集，为基于人类反馈的强化学习训练提供了专门资源。整个使用流程设计清晰，能够有效支撑模型在高级空间理解能力上的迭代与验证。

背景与挑战

背景概述

在计算机视觉与人工智能的交叉领域，空间智能的评估长期依赖于静态图像或模拟环境，难以捕捉真实世界动态交互的复杂性。EscherVerse数据集于2026年由匿名研究团队创建，旨在构建一个大规模、开放世界的基准测试，以评估视觉语言模型中的高级空间智能。该数据集聚焦于物理动态推理与意图驱动推理的统一范式，通过超过一万个真实世界视频及其对应的问答对，推动模型在物体持久性、动态空间关系及人类意图推断等核心问题上的理解能力，为CVPR等顶级会议的研究提供了新的评估标准。

当前挑战

EscherVerse致力于解决高级空间智能评估中的关键挑战，其核心在于要求模型不仅识别静态场景，还需理解物体在时间维度上的物理交互变化，并推断背后的人类意图，这超越了传统视觉问答任务的范畴。在构建过程中，数据集面临真实世界视频采集与标注的复杂性，包括确保视频多样性、精确标注时空变化以及设计涵盖六类空间推理范畴的平衡问题，这些因素共同构成了数据收集与质量控制的显著难点。

常用场景

经典使用场景

在视觉语言模型研究领域，EscherVerse数据集作为评估高级空间智能的基准，其经典使用场景聚焦于模型对动态视频内容的理解与推理。该数据集通过真实世界视频构建的开放环境，要求模型分析物体在时空中的持续存在、遮挡关系及动态交互，同时推断人类行为背后的意图。这种场景设计模拟了人类在日常环境中处理复杂视觉信息的认知过程，为模型提供了从静态图像理解向动态场景理解过渡的关键测试平台。

衍生相关工作

围绕EscherVerse数据集，已衍生出多项经典研究工作，特别是在模型微调与评估框架方面。例如，基于其35K训练样本的SFT（监督微调）方法显著提升了如Qwen3-VL等开源模型在空间推理任务上的表现；同时，该数据集启发的GRPO（梯度奖励策略优化）子集为强化学习在视觉推理中的应用提供了新思路。这些工作不仅扩展了数据集的效用，还催生了更高效的训练范式，推动了视觉语言模型在动态理解领域的算法创新与性能突破。

数据集最近研究