GeoSym-Bench
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/lihaonan0716/GeoSym-Bench
下载链接
链接失效反馈官方服务:
资源简介:
GeoSym-Bench 是一个用于定量图表推理的受控评估基准,其核心特点是支持细粒度的错误归因。该数据集是论文《GeoSym: Structured Evidence Fusion for Reliable Quantitative Chart Reasoning》的配套基准,旨在评估模型在理解和推理数学函数图表方面的能力。数据集包含 460 个高分辨率(1440 x 1440 像素)的干净渲染数学函数图图像,这些图像覆盖了 8 个不同的函数族,包括线性、二次、绝对值、三次、分段线性、指数、对数和有理函数。每个图像样本都配有完整的代数真实值标注,这些标注横跨 10 个评估维度:截距、极值点、预测值、变化率、单调性、对称性、函数表达式、定义域、值域以及推理质量(前9项为客观评估,最后1项为主观评判)。数据以图像文件(PNG格式)和对应的结构化标注文件(JSON格式)组织。JSON文件详细包含了图表渲染元数据、坐标轴范围、刻度值、精确的曲线-网格交点坐标、函数参数与表达式,以及针对10个维度的标准答案。GeoSym-Bench 专为多模态图表推理、视觉问答和图像到文本生成等任务设计,尤其侧重于定量和数学推理能力。其独特的价值在于能够将模型在图表推理过程中产生的错误,精确地归因到视觉感知、代数转换或逻辑推理等特定处理阶段,从而为模型诊断和改进提供更深入的洞察。数据集的问题文本为英语,但支持中英双语环境。
GeoSym-Bench is a controlled evaluation benchmark for quantitative chart reasoning, with its core feature being support for fine-grained error attribution. This dataset accompanies the paper GeoSym: Structured Evidence Fusion for Reliable Quantitative Chart Reasoning and aims to evaluate models capabilities in understanding and reasoning about mathematical function charts. The dataset contains 460 high-resolution (1440 x 1440 pixels) cleanly rendered mathematical function graph images, covering 8 different function families, including linear, quadratic, absolute value, cubic, piecewise linear, exponential, logarithmic, and rational functions. Each image sample comes with complete algebraic ground truth annotations spanning 10 evaluation dimensions: intercepts, extrema, predictions, rates of change, monotonicity, symmetry, function expressions, domain, range, and reasoning quality (the first 9 are objective assessments, and the last is subjective judgment). The data is organized as image files (PNG format) and corresponding structured annotation files (JSON format). The JSON files include detailed chart rendering metadata, axis ranges, tick values, precise curve-grid intersection coordinates, function parameters and expressions, and standard answers for the 10 dimensions. GeoSym-Bench is designed for tasks such as multimodal chart reasoning, visual question answering, and image-to-text generation, with a particular focus on quantitative and mathematical reasoning abilities. Its unique value lies in the ability to precisely attribute errors generated by models during chart reasoning to specific processing stages such as visual perception, algebraic transformation, or logical reasoning, thereby providing deeper insights for model diagnosis and improvement. The datasets question text is in English, but it supports both Chinese and English environments.
创建时间:
2026-05-12
搜集汇总
数据集介绍

构建方式
GeoSym-Bench是一个面向定量图表推理的精细化评估基准,由460张高清晰度数学函数图像构成,覆盖线性、二次、绝对值、三次、分段线性、指数、对数与有理函数等八大函数家族。每张图像均以1440×1440像素的分辨率干净渲染,并配套完整的代数级真实标注。数据集的构建强调结构化证据融合的理念,将每一张图表对应的推理问题拆解为10个评估维度,包含9项客观指标与1项裁判评分指标,并存储于统一的JSON格式中,包含图表元数据、坐标轴规范、交点坐标、函数参数及标注答案等信息,确保推理过程可溯源至具体环节。
特点
该基准的显著优势在于其细粒度的错误归因能力。不同于传统图表推理数据集仅提供最终答案,GeoSym-Bench在每个样本上都完成了从截距、极值、预测值、变化率、单调性、对称性、表达式、定义域、值域到推理质量的十维标注。这一设计使得研究者能够精准定位模型在图表理解、代数推理或证据融合等不同阶段的薄弱环节。此外,数据集以中英双语形式呈现问题文本,兼具专业性与跨语言适配能力,为多模态大模型在数学图表场景下的鲁棒性评估提供了高标准的实验平台。
使用方法
用户可通过Hugging Face的`snapshot_download`接口直接下载完整数据集,并参照标准图像与JSON文件的对应结构进行解析与评估。下载后,图像位于`images/`目录下按函数家族组织的子文件夹中,真实标注存放于`ground_truth/`目录下同名的JSON文件中。配合公开的GeoSym框架代码、评估脚本与提示词模板,研究者可轻松复现基准测试,实现模型输出与十维标注的自动评分与误差分析,从而高效开展图表推理能力的诊断与对比实验。
背景与挑战
背景概述
在大规模多模态模型(LMMs)迅速发展的背景下,图表推理能力作为衡量模型视觉理解与数学推理协同水平的重要维度,引起广泛关注。现有图表问答评测数据集多聚焦于真实世界的复杂图表,其标注噪声和语义模糊性使得推理错误的归因变得困难重重。为突破这一瓶颈,由Wang等人于2026年提出的GeoSym-Bench应运而生,该数据集由Haonan Li主导开发,隶属于GeoSym项目,专门用于可控的定量图表推理评估。GeoSym-Bench包含460幅干净渲染的数学函数图像,覆盖8种函数族,并配备完整的代数真值注释。每个样本在10个评估维度(包括截距、极值、预测值、变化率、单调性、对称性、表达式、定义域、值域与推断质量)上进行精确标注,为细粒度错误归因提供了前所未有的可能性,对推动多模态推理的鲁棒性和可解释性研究具有重要影响。
当前挑战
GeoSym-Bench主要致力于解决领域中的两大关键挑战。在问题层面,现有图表推理基准缺乏对推理错误进行精确定位与归因的能力,使得模型在复杂定量推理任务中的脆弱环节难以被诊断和改善,阻碍了模型性能的针对性提升。在数据集构建层面,如何生成既具有数学精确性又涵盖多类函数族、同时保持问题维度全面且标注统一的基准是一大挑战。GeoSym-Bench通过在受控条件下渲染数学函数图像、设计10个层次化评估维度并辅以精确代数真值,实现了对模型从图像解析、数值提取到数学推理全流程的错误溯源,有效克服了以往基准中标注不一致、维度单一与模糊性高的弊病。
常用场景
经典使用场景
GeoSym-Bench作为面向定量图表推理的精细化评估基准,其核心用途在于系统性地评测多模态大语言模型在解析数学函数图像时的综合能力。该数据集涵盖线性、二次、绝对值、三次、分段线性、指数、对数及有理函数等八类基本函数族,共计460张高分辨率渲染图像。每个样本配备完整的代数标注,并从截距、极值、预测值、变化率、单调性、对称性、表达式、定义域、值域及推理质量等十个评价维度展开细粒度评分。研究者通过该基准能够精确追溯模型在感知、符号理解到代数推理各阶段产生的错误,从而对多模态模型的图表理解能力进行可控、可分解的定量评估。
解决学术问题
GeoSym-Bench解决了现有图表推理基准中普遍存在的两个关键学术难题:一是缺乏对推理错误进行细粒度归因的能力,二是难以区分模型在视觉感知、数学概念理解和逻辑推理等不同阶段的失败模式。传统基准通常只提供单一的正确/错误评分,无法揭示错误根源。该数据集通过引入十维评价体系和完整的代数真值标注,使得研究人员能够精确鉴别模型在截距计算、极值判别、函数表达式推导等具体任务上的表现,并判断错误是源于感知偏差、符号理解不足还是推理链条断裂。这种精细化的错误归因机制为多模态模型的可解释性改进提供了重要参考,推动了图表推理研究从粗略的性能比较向结构化诊断的范式转变。
衍生相关工作
GeoSym-Bench的发布催生了一系列围绕结构化图表推理的后续研究工作。其配套的GeoSym框架提出了结构化证据融合方法,通过多维度证据的有机整合提升了多模态模型在图表推理任务上的准确性和可解释性。该基准的细粒度评价体系启发了研究者开发基于错误归因的模型微调策略和动态推理路径校正算法。同时,十维评价指标的设计理念被后续研究借鉴,衍生出面向科学图表、经济学曲线和工程制图等领域的专项评估基准。此外,该数据集促使学者们重新审视现有视觉-语言模型在数学推理能力上的局限性,推动了融合符号推理与神经网络的混合架构研究的发展。
以上内容由遇见数据集搜集并总结生成



