five

TreeVGR-RL-37K

收藏
Hugging Face2025-07-15 更新2025-07-16 收录
下载链接:
https://huggingface.co/datasets/HaochenWang/TreeVGR-RL-37K
下载链接
链接失效反馈
官方服务:
资源简介:
TreeBench(可追踪证据评估基准)是一个用于评估图像思维能力,具有可追踪视觉证据的诊断基准数据集。该数据集关注于复杂场景中微妙目标的视觉感知,通过边界框评估提供可追踪的证据,并能够进行二次推理以测试对象间的交互和空间层次结构。TreeBench包含405个具有挑战性的视觉问答对,这些问答对对现有模型来说极具挑战性。
创建时间:
2025-07-01
原始信息汇总

TreeBench数据集概述

基本信息

  • 语言: 英语 (en)
  • 许可证: Apache 2.0
  • 任务类别: 图像文本到文本 (image-text-to-text)
  • 标签: 视觉定位 (visual-grounding)、视觉问答 (vqa)、推理 (reasoning)、基准测试 (benchmark)
  • 库名称: datasets

数据集介绍

TreeBench(Traceable Evidence Evaluation Benchmark)是一个诊断性基准测试,旨在通过可追踪的视觉证据评估“图像思维”能力。该数据集基于以下三个核心原则构建:

  1. 聚焦视觉感知: 复杂场景中的细微目标。
  2. 可追踪证据: 通过边界框评估。
  3. 二阶推理: 测试对象交互和空间层次结构,超越简单的对象定位。

数据构成

  • 图像来源: 从SA-1B中采样1K张高质量图像,优先选择密集对象的图像。
  • 标注过程: 由8名LMM专家手动标注问题、候选选项和答案,经过三个阶段的质量控制。
  • 最终规模: 包含405个具有挑战性的视觉问答对。

评估指标

  • 感知任务: 包括属性、材料、物理状态、对象检索和OCR。
  • 推理任务: 包括视角变换、排序、接触与遮挡、空间包含和比较。
  • 总体性能: 整体准确率为49.38%,平均IoU为43.3。

相关资源

使用说明

  1. 克隆仓库: git clone https://github.com/Haochen-Wang409/TreeVGR
  2. 安装依赖: pip3 install -r requirements.txtpip3 install flash-attn --no-build-isolation -v
  3. 运行推理脚本: python3 inference_treebench.py

引用

bibtex @article{wang2025traceable, title={Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology}, author={Haochen Wang and Xiangtai Li and Zilong Huang and Anran Wang and Jiacong Wang and Tao Zhang and Jiani Zheng and Sule Bai and Zijian Kang and Jiashi Feng and Zhuochen Wang and Zhaoxiang Zhang}, journal={arXiv preprint arXiv:2507.07999}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉推理领域,TreeBench数据集的构建体现了对复杂场景中细微目标感知的深度关注。该数据集从SA-1B中精心筛选出1000张包含密集对象的高质量图像,由八位大型多模态模型专家进行人工标注,每张图像均配备问题、候选选项及参考答案。经过三轮严格的质量控制流程,最终形成405个具有挑战性的视觉问答对,确保每个样本都满足可追溯视觉证据的核心要求。
特点
TreeBench的显著特征在于其三重设计原则:聚焦复杂场景中的细微目标感知,通过边界框评估实现可追溯的证据验证,以及测试超越简单对象定位的二阶推理能力。该数据集特别强调对象交互和空间层次关系,图像选择优先考虑对象密集的复杂场景,使得即使最先进的模型也难以轻松应对,为评估视觉 grounding 能力提供了高标准基准。
使用方法
研究人员可通过官方GitHub仓库获取TreeBench数据集及相关推理代码。使用前需克隆代码库并安装指定依赖包,包括flash-attn等优化组件。运行inference_treebench.py脚本即可进行本地推理,输出结果包含感知与推理两大维度的细分指标,以及整体准确率和平均交并比等综合性能评估,为模型诊断提供详细的可量化证据。
背景与挑战
背景概述
视觉推理领域长期面临模型可解释性不足的挑战,TreeBench(Traceable Evidence Evaluation Benchmark)应运而生。该数据集由研究团队于2025年提出,旨在构建具有可追溯视觉证据的评估基准。其核心研究聚焦于复杂场景中的细粒度目标感知、基于边界框验证的证据追溯机制以及超越简单定位的二阶推理能力。通过从SA-1B中精选1000张高密度物体图像,并经由八位专家进行多轮人工标注与质量控制,最终形成405个具有挑战性的视觉问答对,为评估视觉语言模型的深层推理能力提供了重要基准。
当前挑战
该数据集主要解决视觉 grounded reasoning 中证据不可追溯的核心难题,要求模型在复杂场景中完成细粒度目标感知与空间关系推理。构建过程中面临三重挑战:一是高密度物体场景中细微目标的精准标注需要专业领域知识;二是保证视觉证据链的完整性与可验证性需设计严格的边界框标注规范;三是二阶推理问题涉及物体交互与空间层级关系,需要构建超越传统视觉问答的复杂逻辑框架。这些挑战使得数据集的构建必须经过多轮质量控制与专家验证。
常用场景
经典使用场景
在视觉语言模型评估领域,TreeBench数据集通过精心设计的视觉问答任务,为模型提供了复杂的多对象场景分析平台。其典型应用场景包括对模型细粒度视觉感知能力的测试,要求模型在包含密集对象的图像中识别细微目标,并完成基于空间层次和对象交互的推理任务。该数据集通过提供带边界框标注的可追溯证据,使研究者能够精确评估模型在视觉定位和推理链条中的表现。
衍生相关工作
该数据集的发布催生了一系列重要的衍生研究,特别是其配套模型TreeVGR为视觉 grounded reasoning 设立了新的技术标杆。相关研究工作逐步扩展到多模态推理框架的优化、视觉证据追溯机制的改进,以及基于空间关系的层次化推理模型开发。这些工作共同推动了视觉语言模型在可解释性和推理能力方面的显著进步。
数据集最近研究
最新研究方向
在视觉语言理解领域,TreeVGR-RL-37K数据集正推动着可追溯视觉推理研究的前沿发展。该数据集通过引入边界框评估机制,为多模态模型提供了显式的视觉证据追溯能力,有效解决了传统视觉问答中黑箱决策的痛点。当前研究聚焦于提升模型对复杂场景中细微目标的感知精度,以及二阶推理中的空间层次关系理解,这些方向与自动驾驶、医疗影像分析等需要高可靠性解释的应用场景紧密关联。该数据集的推出促进了视觉推理任务的可解释性评估标准建立,为构建更透明、可信的人工智能系统提供了重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作