TIR-Bench
收藏arXiv2025-11-04 更新2025-11-13 收录
下载链接:
https://hf-mirror.com/datasets/Agents-X/TIR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
TIR-Bench是一个全面评估代理思维与图像推理能力的基准数据集,由上海人工智能实验室等研究机构共同创建。数据集包含13个多样化的任务,要求模型使用新型工具对图像进行处理和操作,以实现链式思考。数据集涵盖多个领域,如空间推理、视觉感知和数学,旨在评估模型的代理能力。数据集包含多种任务,如计算颜色比例、调用外部模型进行对象分割、程序化增强低光照图像、校正旋转文本的朝向、解决迷宫、拼图、绘制辅助线等。每个任务都设计为不可通过静态观察解决,需要多步骤、基于工具的策略,从而有效区分真正的思维与图像推理能力。数据集采用客观可验证的答案,为确定性评估提供了稳健的框架。TIR-Bench旨在解决现有基准测试中思维与图像推理能力评估不足的问题,为多模态大型语言模型的发展提供指导。
提供机构:
上海人工智能实验室;南加州大学;埃默里大学;香港中文大学;莱斯大学
创建时间:
2025-11-04
搜集汇总
数据集介绍

构建方式
在视觉推理研究领域,传统基准主要聚焦于静态图像分析,难以评估模型动态操作视觉信息的能力。TIR-Bench通过系统化任务设计构建了涵盖13类视觉推理任务的基准,其数据采集融合了多源生成策略:数学推理与符号逻辑任务由专业标注人员基于网络图像与GeoGebra工具构建;低光照视觉问答与仪器读数任务通过人工标注确保问题需依赖工具操作求解;拼图与迷宫类任务采用程序化生成方法,通过图像分割与网格重组实现可控难度设计;视觉搜索任务则整合了现有基准的挑战性样本与新增高分辨率艺术图像,并辅以人工生成的问答对。所有任务均遵循确定性评估原则,确保答案可客观验证。
特点
作为面向具身视觉推理的评估基准,TIR-Bench展现出三大核心特征:其任务维度覆盖了从几何绘图、空间重组到像素级对比的多元场景,突破了传统视觉搜索的单一范式;每个任务设计均遵循工具依赖性原则,要求模型通过编程手段实现图像旋转、辅助线绘制或外部模型调用等操作,从而有效区分表层感知与深层推理能力;基准构建注重现实复杂性,通过引入抗锯齿渐变、低光照退化等真实噪声,迫使模型发展出鲁棒的视觉处理策略。这些特性使其成为衡量多模态大语言模型视觉思维能力的试金石。
使用方法
在实证研究框架下,TIR-Bench支持零样本评估与细粒度能力诊断。研究者可通过提供原始图像与问题输入,观察模型在代码解释器环境中的多步推理过程:模型需动态生成图像处理代码(如旋转校正、对比度增强),执行后基于中间视觉结果迭代调整策略。对于工具调用型模型,可对比预定义函数与自主编码两种模式的效能差异。基准还提供标准化答案提取流程,对选择题采用直接匹配,对 grounding 类任务则计算交并比度量。这种设计使得基准既能评估终端准确率,又可解析模型在视觉推理链中的薄弱环节。
背景与挑战
背景概述
TIR-Bench由上海人工智能实验室联合南加州大学等机构于2025年提出,旨在系统评估多模态大语言模型在图像思维推理领域的智能体能力。该数据集聚焦于突破传统视觉推理的静态分析局限,通过设计13类需动态工具调用的任务,如几何作图、图像旋转、拼图重组等,推动模型实现链式思维中的图像主动操纵与迭代推理。其创新性体现在首次构建覆盖空间推理、数学几何、视觉感知等多维度的评估体系,为探索具身智能在视觉认知领域的发展提供了关键基准。
当前挑战
该数据集核心挑战在于解决复杂视觉任务中动态工具调用的泛化性问题。具体表现为模型需在未知工具库条件下自主生成代码实现图像变换,如拼图任务要求开发边缘匹配算法,比例计算需调用外部分割模型。构建过程中面临标注一致性难题,例如低光照增强任务需人工设计不可仅凭静态观察解决的问答对,仪器读数任务需确保旋转裁剪操作的逻辑连贯性。此外,数据污染防控要求所有样本均需重新标注或程序生成,以规避预训练数据泄露对评估效度的干扰。
常用场景
衍生相关工作
基于TIR-Bench的设计理念,研究社区衍生出多个重要的相关研究方向。在工具调用框架方面,PyVision实现了基于GPT-4.1的动态工具构建能力;DeepEyes通过强化学习激励图像思维行为;在模型架构创新上,ViperGPT采用Python作为基础工具语言,支持更灵活的视觉推理。这些工作共同推动了思维链从纯文本向多模态扩展的研究范式转变,促进了Visual Sketchpad、Chain-of-Focus等方法的诞生,形成了以程序化图像操作为核心的新兴研究领域。
数据集最近研究
最新研究方向
在视觉推理领域,TIR-Bench作为首个系统评估多模态大模型图像思维能力的基准,正推动研究聚焦于动态工具交互与链式视觉操作的前沿方向。该数据集通过13类复杂任务(如几何辅助线绘制、拼图重组及低光图像增强)揭示模型需通过编程工具主动重构视觉信息以解决难题,突破了传统静态图像分析的局限。当前热点集中于探索开源框架(如PyVision)与闭源模型(如OpenAI o3)在代码解释器支持下的工具调用泛化能力,同时微调策略比较研究表明,基于完整问题轨迹的智能体微调能显著提升多步视觉推理的鲁棒性。这一进展对自动驾驶、医疗影像分析等依赖动态视觉处理的领域具有重要启示,标志着多模态推理从被动感知向主动创造的范式转变。
相关研究论文
- 1通过上海人工智能实验室, 南加州大学, 埃默里大学, 香港中文大学, 莱斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成



