GRAB

arXiv2025-09-30 收录

下载链接：

https://github.com/otaheri/grab

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集记录了全身人体抓取小物体的场景，同时我们也研究了该数据集在跨数据集泛化能力方面的表现。该数据集包含1,334个视频，旨在进行三维人体与物体交互预测的任务。

This dataset records scenarios of full-body human grasping of small objects, and we also investigated its performance in cross-dataset generalization. Comprising 1,334 videos, it is designed for the task of 3D human-object interaction prediction.

搜集汇总

数据集介绍

构建方式

GRAB数据集的构建依托于Matplotlib库，通过全合成方式生成2170道图表分析问题。研究者为每类图属性（如截距、梯度、相关系数等）设计了对应的数据生成函数与参数范围，对于可逆属性先采样目标值再反推生成参数，对于不可逆属性则随机采样参数后计算属性值。所有图表均经过多轮人工校验，确保问题可答且图像清晰可读。最终通过下采样策略均衡答案分布，避免偏向零值，并控制图表美观参数（如尺寸、字体、线型）以提升多样性与可读性。

特点

该数据集的核心特点在于其高挑战性与精细化控制。涵盖23种图属性与四大任务（属性提取、函数均值、序列均值、变换推理），问题难度从单图属性递进至多函数/序列的均值计算，乃至多达10步的几何变换推理。约25%的问题要求一位小数精度，进一步增加难度。合成生成方式确保了无噪声标注、可调节复杂度，并有效规避了数据污染风险。实验表明，最强模型Claude 3.5 Sonnet仅达到21.7%的准确率，凸显了其作为下一代多模态大模型试金石的潜力。

使用方法

使用GRAB时，模型需接收图表图像与一个简洁的开放式问题（如“估计函数的平均y截距”），并严格遵循输出格式指令仅返回数值答案。评估采用精确字符串匹配协议，不进行后处理或LLM辅助提取，以同时衡量任务推理与指令遵循能力。研究者建议采用贪心解码（温度设为0）以确保结果可重复，并可通过对比单答案与多项选择格式（5个对抗性选项）来深入分析模型行为。数据集与评估代码已开源，支持高效的单GPU快速评测。

背景与挑战

背景概述

随着大型多模态模型在视觉任务中展现出的卓越能力，传统的评估基准逐渐趋于饱和，难以有效区分前沿模型的性能差异。在此背景下，剑桥大学与香港大学的研究人员于2024年联合推出了GRAB（Graph Analysis Benchmark）数据集。该数据集旨在填补当前评估体系中对图表分析能力考察的空白，聚焦于模型从科学图表中提取均值、截距、相关性等关键属性的视觉推理能力。GRAB包含2170道完全合成的问题，覆盖4类任务与23种图表属性，为评估新一代多模态模型的复杂视觉分析能力提供了高难度、低噪音的标准化测试平台。其发布迅速引起了广泛关注，成为检验模型在科学图表理解领域真实水平的重要基准。

当前挑战

GRAB数据集所面临的挑战主要集中在两个层面。首先，在领域问题层面，现有模型在图表分析任务上表现极差，最佳模型仅取得21.7%的准确率，尤其在函数方程推导、多函数均值计算和复杂变换后的属性求解等任务上几乎无能为力，暴露出模型在精细视觉测量与多步推理上的严重不足。其次，在构建过程中，为确保问题的高质量和无噪音，研究团队采用了全合成生成策略，这虽然避免了标注错误，但需要精妙设计参数以平衡难度与可读性，同时要防止数据污染，确保生成的图表和问题在预训练语料中几乎不可见，这对数据多样性与控制精度提出了极高要求。

常用场景

经典使用场景

在大型多模态模型（LMM）迅速演进的浪潮中，GRAB作为一个专为图形分析而设计的挑战性基准，应运而生。其核心使用场景在于评估前沿模型对科学图表中函数与数据系列的视觉解析能力，涵盖均值、截距、相关系数等关键属性的推导。通过合成生成的2170道问题，GRAB模拟了分析者在无法获取底层数据时仅凭视觉信息进行定量推理的典型任务，为当前和未来一代LMM提供了严苛的试金石。

实际应用

在实际应用中，GRAB所评估的能力直接服务于科研与工程领域的自动化图表分析。例如，在学术论文中提取函数参数、在金融数据中估算相关趋势、或在工程文档中解读变换后的图形特征，这些场景均依赖LMM对视觉信息的精准推理。GRAB通过模拟这些真实用例，推动了模型在文档理解、数据分析辅助和智能教育等领域的落地，为需要从静态图表中提取量化信息的自动化系统奠定了评估基础。

衍生相关工作

GRAB的发布催生了一系列衍生研究，尤其在LMM的视觉推理与指令遵循能力方面。其严格的精确匹配评估协议启发了后续工作对输出格式控制的重视，同时，对变换任务中复杂度的分析（如多步几何变换）推动了模型空间推理能力的专项研究。此外，GRAB中揭示的类别性能差异（如函数类别零准确率）激发了针对特定图形属性的增强训练策略，并促进了如MathVista等元数据集在难度分层上的借鉴，共同塑造了新一代多模态基准的设计范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集