EscherVerse
收藏EscherVerse 数据集概述
数据集简介
EscherVerse 是一个用于评估视觉语言模型中高级空间智能的大规模、开放世界基准和数据集。它引入了一种新的范式,统一了物理动态推理与意图驱动推理。
核心特性
- 开放世界:使用真实世界视频,而非模拟环境。
- 动态性:关注时间变化,而非静态场景。
- 以人为中心:首个用于意图驱动推理的基准。
- 全面性:包含 8K 基准测试样本和 35K 训练样本。
数据集构成
数据集可通过 🤗 Hugging Face 下载。
| 文件 | 描述 | 大小 |
|---|---|---|
Escher-Bench.json |
基准评估集 | 8,000 个问答对 |
Escher-sft.jsonl |
SFT 训练数据 | 35,963 个问答对 |
Escher-GRPO-Subset.jsonl |
GRPO 训练子集 | 3,588 个样本 |
video_list.json |
视频元数据 | 11,328 个视频 |
空间推理类别
- 物体恒存与遮挡跟踪 - 理解物体的连续性。
- 动态空间关系 - 推理变化中的关系。
- 动作与意图驱动的空间推理 - 推断人类目标。
- 预测与反事实推理 - 预测结果。
- 物体形变与状态转换 - 物理状态变化。
- 自我中心与异我中心参照系 - 视点推理。
快速使用
安装
bash git clone https://github.com/Grady10086/EscherVerse.git cd EscherVerse pip install -r requirements.txt
下载数据
bash
下载基准数据
huggingface-cli download Gradygu3u/Escher-Data --local-dir ./data
运行评估
支持本地模型(如 Qwen3-VL-8B)和 API 模型(如 GPT-4o)。
支持模型
本地模型:qwen3-vl-8b、qwen3-vl-4b、qwen3-vl-2b、qwen2.5-vl-7b、qwen2.5-vl-3b、llava-onevision-7b、internvl3-8b。
API 模型:gpt-4o、gpt-4o-mini、gemini-2.5-pro、gemini-2.5-flash、claude-3.5-sonnet。
基准排行榜(部分)
| 排名 | 模型 | 总体得分 | 以人为中心 | 以物体为中心 |
|---|---|---|---|---|
| 1 | Gemini-2.5-Pro | 57.26% | 49.70% | 49.18% |
| 2 | Escher-8B-SFT | 49.85% | - | - |
| 3 | Qwen3-VL-32B-Thinking | 49.58% | 49.70% | 49.18% |
训练数据格式
训练数据格式包含 messages(用户与助手对话)、videos(视频文件名列表)和 metadata(类别、场景类型、问题类型等)。
引用
bibtex @inproceedings{escherverse2026, title={EscherVerse: An Open World Benchmark and Dataset for Advanced Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding}, author={Anonymous}, booktitle={CVPR}, year={2026} }
许可证
本项目采用 CC BY-NC 4.0 许可证。




