five

DynaVisR-Billiards

收藏
github2026-04-29 更新2026-04-30 收录
下载链接:
https://github.com/akaliutau/dynavisr-bench
下载链接
链接失效反馈
官方服务:
资源简介:
DynaVisR-Billiards是一个用于评估模型是否能够结合视觉轨迹模拟、反弹索引状态更新以及重叠和层序推理的程序化数据集生成器。每个示例都是一个合成的台球世界,包含一个球、一个矩形桌子和命名的矩形障碍物(A–D)。求解器必须心理模拟球的反射,同时应用在特定反弹计数后变化的可见性规则。在查询的时刻,求解器必须识别下一个击中的对象,确定哪些障碍物是可见的,并恢复可见重叠子集的从下到上的顺序。

DynaVisR-Billiards is a procedural dataset generator designed to evaluate whether models can integrate three core capabilities: visual trajectory simulation, bounce index state updating, and reasoning regarding overlap and hierarchical ordering. Each example instantiates a synthetic billiards environment containing a single billiard ball, a rectangular table, and named rectangular obstacles labeled A–D. The solver must mentally simulate the ball's reflections while adhering to visibility rules that shift after a specified number of bounces. At the queried time step, the solver must identify the next object to be struck by the ball, determine which obstacles are visible, and recover the bottom-up ordering of the visible overlapping obstacle subset.
创建时间:
2026-04-17
原始信息汇总

数据集概述:DynaVisR: Benchmark for Visual Reasoning in Dynamic Environments

DynaVisR (Billiards) 是一个用于评估模型在动态环境中进行视觉推理能力的程序化数据集生成器。其核心挑战在于要求模型同时结合视觉轨迹模拟、基于弹跳次数的状态更新以及重叠与图层顺序推理。

核心特性

  • 模态: 基于图像的视觉推理(image-grounded visual reasoning)
  • 核心挑战: 耦合物理模拟与动态状态更新
  • 任务输出: 下一个撞击物体、可见物体、重叠的可见子集、图层顺序
  • 生成产物: 问题图像、答案图像、元数据文本、JSON记录、JSONL数据集、清单文件、校验和文件
  • 可复现性: 种子控制生成、确定性排序、SHA-256清单

任务描述

该基准测试旨在减少捷径(shortcutting),要求模型解决一个耦合推理问题,而非对熟悉的静态模式进行分类。正确的答案需要:

  • 针对墙壁和当前可见障碍物进行精确的反射推理
  • 在弹跳次数后正确应用可见性转换规则
  • 在查询时刻过滤出可见子集
  • 识别哪些可见物体存在重叠
  • 将这些物体按从下到上的图层顺序排序

生成器通过精确模拟计算黄金答案,并拒绝模糊或低清晰度的世界,确保标签的精确性和可审计性。

当前排行榜摘要(v1)

模型 平均总分 95% 置信区间
Gemini 3.1 Pro Preview 0.898 0.859-0.934
Gemini 3 Flash Preview 0.758 0.698-0.814
Qwen 3 235B A22B Instruct 0.601 0.545-0.657
Claude Sonnet 4.6 0.583 0.513-0.649
Claude Opus 4.7 0.412 0.346-0.476

生成器输出

对于每个生成的示例,管道会生成:

  • 问题图像:显示标准棋盘布局
  • 答案图像:显示直到查询撞击的轨迹及撞击点
  • 元数据文本文件:包含提示和黄金答案
  • JSON记录:单个示例的记录
  • dataset.jsonl:整个数据分片文件
  • manifest.json:包含每个文件的SHA-256哈希值和构建元数据
  • manifest.sha256dataset.sha256:校验和文件

可复现性保证

  • 通过明确的 --seed 参数生成数据集
  • JSON和JSONL输出使用确定性键顺序
  • 输出清单文件确定性排序
  • 需要干净的输出目录以确保可重现构建
  • 每个输出文件都使用SHA-256进行哈希

推荐构建命令

bash PYTHONHASHSEED=0 python billiard_benchmark_generator.py --output-dir dataset/v1 --num-examples 100 --seed 7 --snapshot-after-bounce 2 --require-overlap-at-snapshot any

输出目录结构

text dataset/v1/ ├── dataset.jsonl ├── dataset.sha256 ├── manifest.json ├── manifest.sha256 └── images/ ├── 00000_question.png ├── 00000_answer.png ├── 00001_question.png └── 00001_answer.png

数据集模式(dataset.jsonl)

每条JSON对象包含:

  • sample_id:稳定示例标识符
  • image_path:问题图像的相对路径
  • answer_image_path:答案可视化图像的相对路径
  • metadata_txt_path:文本元数据文件的相对路径
  • prompt:自然语言任务提示
  • world:序列化的世界配置
  • answers.q1_hit_object:查询撞击物体的黄金标签
  • answers.q2_visible_objects:查询时刻的可见物体
  • answers.q3a_visible_overlapping_objects:查询时刻重叠的可见物体
  • answers.q3b_layer_groups_bottom_to_top:从下到上排序的重叠层组
  • debug:用于审计的精确模拟细节

质量控制

生成器会拒绝视觉上令人困惑或几何上模棱两可的世界。拒绝过滤器包括:

  • 模糊的同时撞击
  • 过于靠近障碍物或墙角的角落碰撞
  • 轨迹过于接近障碍物而未击中
  • 过短的轨迹腿难以检查
  • 难以辨认的同方向重叠
  • 过于靠近墙壁或障碍物的拥挤起始位置

这些过滤器可提高标签有效性和视觉清晰度,便于人工检查和模型评估。

基准测试定位建议

该生成器最适合定位为执行功能(Executive Functions) 的基准测试,注意力(Attention) 作为次要能力:

  • 执行功能: 多步骤规划、顺序规则应用、类似工作记忆的状态维护
  • 注意力: 在动态更新下追踪当前相关的可见子集
搜集汇总
数据集介绍
main_image_url
构建方式
DynaVisR-Billiards数据集通过程序化生成管道构建,专注于动态环境中的视觉推理任务。该生成器以台球世界为背景,模拟球体在矩形桌面上的反射轨迹,并引入随弹跳次数变化的可见性规则。每个样本包含一个指定的球体、矩形桌面以及命名为A至D的矩形障碍物。生成过程基于精确模拟计算黄金答案,并通过特定过滤器剔除视觉模糊或几何歧义的场景,例如同时碰撞、靠近角落的轨迹或难以区分的重叠障碍物,确保标签的高精度与可审计性。最终输出包括问题图像、答案图像、元数据文本、JSON记录、JSONL格式数据集及SHA-256校验清单,支持种子控制的确定性生成与可重复构建。
特点
该数据集的核心特点在于将视觉轨迹模拟、基于弹跳次数的状态更新以及重叠与层序推理耦合为单一推理挑战。每个样本要求求解器依次识别查询时刻的下一个碰撞对象、确定可见障碍物集合、恢复可见重叠子集的底层至顶层顺序。这种设计有效减少了捷径学习,迫使模型执行多步计划、顺序规则应用及类似工作记忆的状态维护。数据集的精确标签通过完全模拟计算得出,剔除了低清晰度或歧义性样本,确保了标签的有效性与视觉可读性。此外,整体布局与任务结构被定位为评估执行功能与注意力能力的基准。
使用方法
使用DynaVisR-Billiards数据集需首先克隆代码仓库并安装依赖。用户可通过指定种子、输出目录、样本数量及快照弹跳次数等参数运行生成器,创建自定义规模的数据集。生成物包含JSONL格式的样本记录及对应图像,支持转换为Kaggle兼容的CSV格式。每个样本提供自然语言提示、序列化世界配置及四类答案标签。评估时,模型需根据问题图像推理并输出相应结果,与黄金答案对比计算得分。建议在基准测试中包含数据集种子与配置参数,以支持结果复现与跨模型比较。
背景与挑战
背景概述
DynaVisR-Billiards数据集由Akaliutau等人开发,首次发布于2025年,专为评估动态环境下的视觉推理能力而设计。该数据集以台球桌为模拟场景,要求模型融合视觉轨迹模拟、反弹索引状态更新以及重叠与层序推理三种能力。其核心研究问题在于:视觉语言模型能否在动态变化的物理环境中执行多步推理,而非仅依赖静态模式识别。该基准的发布填补了现有视觉推理任务中缺乏动态耦合推理的空白,对推动AGI研究,特别是执行功能与注意力相关能力的测评,具有重要意义。
当前挑战
该数据集面临的核心挑战在于其耦合推理的复杂性。模型需同时处理多个子任务:基于物理规则的反射轨迹模拟、随反弹次数动态变化的可见性规则应用、以及可见物体内的重叠与层序排序。这要求模型具备类似人类的执行功能,包括多步规划、序列状态维护与更新。构建过程中还面临几何模糊性剔除的难题,生成器需拒绝同时撞击、角落碰撞、轨迹过于接近障碍物等模糊情况,以确保标签的精确性与可审计性。
常用场景
经典使用场景
在动态视觉推理的研究领域中,DynaVisR-Billiards数据集独树一帜,其设计的合成台球世界为评估模型的多步耦合推理能力提供了精密的测试平台。该数据集最经典的使用场景是要求模型同时完成视觉轨迹模拟、弹跳索引状态更新以及重叠层序推理三项任务。给定一个包含球体、矩形桌面及命名矩形障碍物的初始场景图像,模型须在心中模拟球体经多次反射后的运动轨迹,并精准记录每次弹跳后障碍物可见性的动态变化。在查询时刻,模型需要识别下一个被撞击的物体、确定当前可见的障碍物、从中筛选出相互重叠的部分,并恢复这些可见重叠物体自底向上的叠放顺序。这一复合过程不同于传统的静态图像分类或单一视觉问答,它迫使模型将视觉感知、物理直觉与工作记忆融为一体,从而极大降低了模型通过表面特征取巧的可能性。
解决学术问题
DynaVisR-Billiards数据集精准地切中了当前视觉推理研究中的一个关键痛点:现有基准测试多聚焦于静态场景下的模式识别或简单的属性问答,而缺乏对动态环境中规则耦合与状态演变能力的系统性考察。该数据集致力于解决模型在物理仿真理解、动态状态追踪及重叠空间关系推理方面的评估空白。过去,研究者难以区分模型究竟是真正理解了时空因果链条,还是仅仅依赖训练数据中的统计捷径。通过引入弹跳索引控制的可见性规则转换和精确的层序排序要求,该数据集使研究人员能够对不同模型在“执行功能”这一认知维度上的表现进行清晰量化。其意义在于,为视觉推理社区树立了一个难度更高、诊断性更强的评测标准,推动了从模式匹配向真正因果模拟能力的范式转换。
衍生相关工作
DynaVisR-Billiards数据集的问世已催生出多个方向的相关工作。其一,基于该平台衍生了针对不同规模视觉语言模型的系统化诊断研究,研究者利用其种子可控的生成特性,系统评估了Gemini、Qwen、Claude等系列模型在物理仿真与动态推理上的能力边界与退化模式。其二,该数据集的精细难度分层机制启发了对抗性样本生成的研究,即通过调整弹跳次数、障碍物密度及重叠条件,自动构造出能暴露特定模型弱点的极端测试样例。其三,受其“执行功能”定位的启发,部分工作开始探索如何将类人认知中的工作记忆与注意力模块显式地引入视觉推理架构,而非单纯依赖端到端的参数记忆。最后,该数据的精确审计标签和SHA-256校验机制,为构建可复现、可追溯的视觉推理评测标准树立了范例,推动了更公开、更透明的模型比较实验设计。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作