TreeVGR-RL-37K

Hugging Face2025-07-15 更新2025-07-16 收录

下载链接：

https://huggingface.co/datasets/HaochenWang/TreeVGR-RL-37K

下载链接

链接失效反馈

官方服务：

资源简介：

TreeBench（可追踪证据评估基准）是一个用于评估图像思维能力，具有可追踪视觉证据的诊断基准数据集。该数据集关注于复杂场景中微妙目标的视觉感知，通过边界框评估提供可追踪的证据，并能够进行二次推理以测试对象间的交互和空间层次结构。TreeBench包含405个具有挑战性的视觉问答对，这些问答对对现有模型来说极具挑战性。

创建时间：

2025-07-01

原始信息汇总

TreeBench数据集概述

基本信息

语言: 英语 (en)
许可证: Apache 2.0
任务类别: 图像文本到文本 (image-text-to-text)
标签: 视觉定位 (visual-grounding)、视觉问答 (vqa)、推理 (reasoning)、基准测试 (benchmark)
库名称: datasets

数据集介绍

TreeBench（Traceable Evidence Evaluation Benchmark）是一个诊断性基准测试，旨在通过可追踪的视觉证据评估“图像思维”能力。该数据集基于以下三个核心原则构建：

聚焦视觉感知: 复杂场景中的细微目标。
可追踪证据: 通过边界框评估。
二阶推理: 测试对象交互和空间层次结构，超越简单的对象定位。

数据构成

图像来源: 从SA-1B中采样1K张高质量图像，优先选择密集对象的图像。
标注过程: 由8名LMM专家手动标注问题、候选选项和答案，经过三个阶段的质量控制。
最终规模: 包含405个具有挑战性的视觉问答对。

评估指标

感知任务: 包括属性、材料、物理状态、对象检索和OCR。
推理任务: 包括视角变换、排序、接触与遮挡、空间包含和比较。
总体性能: 整体准确率为49.38%，平均IoU为43.3。

使用说明

克隆仓库: git clone https://github.com/Haochen-Wang409/TreeVGR
安装依赖: pip3 install -r requirements.txt 和 pip3 install flash-attn --no-build-isolation -v
运行推理脚本: python3 inference_treebench.py

引用

bibtex @article{wang2025traceable, title={Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology}, author={Haochen Wang and Xiangtai Li and Zilong Huang and Anran Wang and Jiacong Wang and Tao Zhang and Jiani Zheng and Sule Bai and Zijian Kang and Jiashi Feng and Zhuochen Wang and Zhaoxiang Zhang}, journal={arXiv preprint arXiv:2507.07999}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视觉推理领域，TreeBench数据集的构建体现了对复杂场景中细微目标感知的深度关注。该数据集从SA-1B中精心筛选出1000张包含密集对象的高质量图像，由八位大型多模态模型专家进行人工标注，每张图像均配备问题、候选选项及参考答案。经过三轮严格的质量控制流程，最终形成405个具有挑战性的视觉问答对，确保每个样本都满足可追溯视觉证据的核心要求。

特点

TreeBench的显著特征在于其三重设计原则：聚焦复杂场景中的细微目标感知，通过边界框评估实现可追溯的证据验证，以及测试超越简单对象定位的二阶推理能力。该数据集特别强调对象交互和空间层次关系，图像选择优先考虑对象密集的复杂场景，使得即使最先进的模型也难以轻松应对，为评估视觉 grounding 能力提供了高标准基准。

使用方法

研究人员可通过官方GitHub仓库获取TreeBench数据集及相关推理代码。使用前需克隆代码库并安装指定依赖包，包括flash-attn等优化组件。运行inference_treebench.py脚本即可进行本地推理，输出结果包含感知与推理两大维度的细分指标，以及整体准确率和平均交并比等综合性能评估，为模型诊断提供详细的可量化证据。

背景与挑战

背景概述

视觉推理领域长期面临模型可解释性不足的挑战，TreeBench（Traceable Evidence Evaluation Benchmark）应运而生。该数据集由研究团队于2025年提出，旨在构建具有可追溯视觉证据的评估基准。其核心研究聚焦于复杂场景中的细粒度目标感知、基于边界框验证的证据追溯机制以及超越简单定位的二阶推理能力。通过从SA-1B中精选1000张高密度物体图像，并经由八位专家进行多轮人工标注与质量控制，最终形成405个具有挑战性的视觉问答对，为评估视觉语言模型的深层推理能力提供了重要基准。

当前挑战

该数据集主要解决视觉 grounded reasoning 中证据不可追溯的核心难题，要求模型在复杂场景中完成细粒度目标感知与空间关系推理。构建过程中面临三重挑战：一是高密度物体场景中细微目标的精准标注需要专业领域知识；二是保证视觉证据链的完整性与可验证性需设计严格的边界框标注规范；三是二阶推理问题涉及物体交互与空间层级关系，需要构建超越传统视觉问答的复杂逻辑框架。这些挑战使得数据集的构建必须经过多轮质量控制与专家验证。

常用场景

经典使用场景

在视觉语言模型评估领域，TreeBench数据集通过精心设计的视觉问答任务，为模型提供了复杂的多对象场景分析平台。其典型应用场景包括对模型细粒度视觉感知能力的测试，要求模型在包含密集对象的图像中识别细微目标，并完成基于空间层次和对象交互的推理任务。该数据集通过提供带边界框标注的可追溯证据，使研究者能够精确评估模型在视觉定位和推理链条中的表现。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究，特别是其配套模型TreeVGR为视觉 grounded reasoning 设立了新的技术标杆。相关研究工作逐步扩展到多模态推理框架的优化、视觉证据追溯机制的改进，以及基于空间关系的层次化推理模型开发。这些工作共同推动了视觉语言模型在可解释性和推理能力方面的显著进步。

数据集最近研究

TreeVGR-RL-37K

TreeBench数据集概述

基本信息

数据集介绍

数据构成

评估指标

相关资源

使用说明

引用