DynaVisR-Billiards
收藏数据集概述:DynaVisR: Benchmark for Visual Reasoning in Dynamic Environments
DynaVisR (Billiards) 是一个用于评估模型在动态环境中进行视觉推理能力的程序化数据集生成器。其核心挑战在于要求模型同时结合视觉轨迹模拟、基于弹跳次数的状态更新以及重叠与图层顺序推理。
核心特性
- 模态: 基于图像的视觉推理(image-grounded visual reasoning)
- 核心挑战: 耦合物理模拟与动态状态更新
- 任务输出: 下一个撞击物体、可见物体、重叠的可见子集、图层顺序
- 生成产物: 问题图像、答案图像、元数据文本、JSON记录、JSONL数据集、清单文件、校验和文件
- 可复现性: 种子控制生成、确定性排序、SHA-256清单
任务描述
该基准测试旨在减少捷径(shortcutting),要求模型解决一个耦合推理问题,而非对熟悉的静态模式进行分类。正确的答案需要:
- 针对墙壁和当前可见障碍物进行精确的反射推理
- 在弹跳次数后正确应用可见性转换规则
- 在查询时刻过滤出可见子集
- 识别哪些可见物体存在重叠
- 将这些物体按从下到上的图层顺序排序
生成器通过精确模拟计算黄金答案,并拒绝模糊或低清晰度的世界,确保标签的精确性和可审计性。
当前排行榜摘要(v1)
| 模型 | 平均总分 | 95% 置信区间 |
|---|---|---|
| Gemini 3.1 Pro Preview | 0.898 | 0.859-0.934 |
| Gemini 3 Flash Preview | 0.758 | 0.698-0.814 |
| Qwen 3 235B A22B Instruct | 0.601 | 0.545-0.657 |
| Claude Sonnet 4.6 | 0.583 | 0.513-0.649 |
| Claude Opus 4.7 | 0.412 | 0.346-0.476 |
生成器输出
对于每个生成的示例,管道会生成:
- 问题图像:显示标准棋盘布局
- 答案图像:显示直到查询撞击的轨迹及撞击点
- 元数据文本文件:包含提示和黄金答案
- JSON记录:单个示例的记录
- dataset.jsonl:整个数据分片文件
- manifest.json:包含每个文件的SHA-256哈希值和构建元数据
- manifest.sha256 和 dataset.sha256:校验和文件
可复现性保证
- 通过明确的
--seed参数生成数据集 - JSON和JSONL输出使用确定性键顺序
- 输出清单文件确定性排序
- 需要干净的输出目录以确保可重现构建
- 每个输出文件都使用SHA-256进行哈希
推荐构建命令
bash PYTHONHASHSEED=0 python billiard_benchmark_generator.py --output-dir dataset/v1 --num-examples 100 --seed 7 --snapshot-after-bounce 2 --require-overlap-at-snapshot any
输出目录结构
text dataset/v1/ ├── dataset.jsonl ├── dataset.sha256 ├── manifest.json ├── manifest.sha256 └── images/ ├── 00000_question.png ├── 00000_answer.png ├── 00001_question.png └── 00001_answer.png
数据集模式(dataset.jsonl)
每条JSON对象包含:
sample_id:稳定示例标识符image_path:问题图像的相对路径answer_image_path:答案可视化图像的相对路径metadata_txt_path:文本元数据文件的相对路径prompt:自然语言任务提示world:序列化的世界配置answers.q1_hit_object:查询撞击物体的黄金标签answers.q2_visible_objects:查询时刻的可见物体answers.q3a_visible_overlapping_objects:查询时刻重叠的可见物体answers.q3b_layer_groups_bottom_to_top:从下到上排序的重叠层组debug:用于审计的精确模拟细节
质量控制
生成器会拒绝视觉上令人困惑或几何上模棱两可的世界。拒绝过滤器包括:
- 模糊的同时撞击
- 过于靠近障碍物或墙角的角落碰撞
- 轨迹过于接近障碍物而未击中
- 过短的轨迹腿难以检查
- 难以辨认的同方向重叠
- 过于靠近墙壁或障碍物的拥挤起始位置
这些过滤器可提高标签有效性和视觉清晰度,便于人工检查和模型评估。
基准测试定位建议
该生成器最适合定位为执行功能(Executive Functions) 的基准测试,注意力(Attention) 作为次要能力:
- 执行功能: 多步骤规划、顺序规则应用、类似工作记忆的状态维护
- 注意力: 在动态更新下追踪当前相关的可见子集




