five

MATHGLANCE

收藏
arXiv2025-03-27 更新2025-03-28 收录
下载链接:
https://mathglance.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
MATHGLANCE是一个专门设计的基准,用于隔离和评估数学感知能力,包含1.2K图像和1.6K经过精心设计的涵盖四个感知任务的问题,这些任务包括形状分类、物体计数、关系识别和物体定位,覆盖了平面几何、立体几何和图形表示等不同领域。数据集通过严格的合成过程构建,确保了质量和平衡性,为评估和推进多模态数学理解提供了有价值的资源和见解。

MATHGLANCE is a purpose-built benchmark designed to isolate and evaluate mathematical perception capabilities. It comprises 1.2k images and 1.6k meticulously curated questions covering four perceptual tasks: shape classification, object counting, relation recognition, and object localization, spanning diverse domains including planar geometry, solid geometry, and graphical representation. The dataset is constructed through a rigorous synthetic pipeline to ensure quality and balance, serving as a valuable resource and providing insightful perspectives for evaluating and advancing multimodal mathematical understanding.
提供机构:
新加坡国立大学, 澳大利亚机器学习研究所, 南京理工大学, 俄亥俄州立大学, Data61 CSIRO, NetMind.ai
创建时间:
2025-03-27
搜集汇总
数据集介绍
main_image_url
构建方式
MATHGLANCE数据集的构建采用了系统化的合成方法,结合了结构化标注与模板化生成策略。研究团队首先设计了基于几何子句的数据生成引擎,通过随机采样几何形状和关系池中的元素,并经过数学逻辑验证器筛选,确保生成图形的几何一致性。随后采用Matplotlib库进行图像渲染,并基于JSON结构化标注(包含形状类别、顶点坐标、空间关系等元数据)自动生成多样化的问题-答案对。针对立体几何和图表数据,团队对CLEVR和FigureQA数据集进行了重新格式化,统一纳入模板化处理流程。整个构建过程强调人工校验,确保问题与图像的精确对应。
特点
该数据集的核心特征体现在三个方面:任务设计的细粒度性、领域覆盖的全面性以及评估维度的系统性。1,609个感知导向问题涵盖形状分类、对象计数、关系识别和对象定位四大任务,覆盖平面几何(66%)、立体几何(20%)和图表(14%)三大数学领域。其创新性在于将人类可‘一瞥即解’的基础感知任务从复杂推理中剥离,通过单选、判断和开放式问题形式,专门评估多模态模型对数学图示符号结构和空间关系的理解能力。数据集中特别设计的视觉干扰项(高斯噪声、辅助线等)和文本干扰项,为模型抗干扰性能提供了严谨测试基准。
使用方法
使用MATHGLANCE需遵循三阶段流程:基准测试、模型训练和相关性分析。研究人员首先利用其1.2K图像和1.6K问题评估多模态模型的数学感知能力,特别关注细粒度定位任务的性能差距。针对发现的感知缺陷,可结合配套的GeoPeP数据集(20万几何图像-文本对)进行针对性训练,该数据集明确标注了几何基元及其空间关系。最终通过分析感知准确率与MathVista等推理基准的相关性,验证低层视觉理解对高层数学推理的促进作用。数据集支持标准的多选答案提取和IoU阈值评估,其中定位任务要求预测目标对象的精确边界框坐标。
背景与挑战
背景概述
MATHGLANCE是由新加坡国立大学、澳大利亚机器学习研究所等机构的研究团队于2025年提出的一个专门用于评估多模态大语言模型(MLLMs)在数学图表感知能力的基准数据集。该数据集包含1.2K图像和1.6K问题,覆盖形状分类、对象计数、关系识别和对象定位四个核心任务,涵盖平面几何、立体几何和图形表示等多个数学领域。MATHGLANCE的提出填补了当前多模态模型在数学图表理解方面的评估空白,为相关领域的研究提供了重要的基准和资源。
当前挑战
MATHGLANCE面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,数学图表的抽象性和符号性使得多模态大语言模型难以准确理解其结构和关系,尤其是在细粒度定位任务中表现尤为不足。构建过程中的挑战则包括如何确保数据集的多样性和平衡性,以及如何设计有效的评估任务以准确衡量模型的感知能力。此外,数据集中视觉干扰因素(如高斯噪声和不规则涂鸦)的引入也增加了模型训练的难度。
常用场景
经典使用场景
在数学教育领域,MATHGLANCE数据集被广泛用于评估多模态大语言模型(MLLMs)对数学图表的基础感知能力。通过精心设计的形状分类、对象计数、关系识别和对象定位任务,该数据集能够有效衡量模型在几何图形和图表理解上的表现。例如,研究人员可以利用MATHGLANCE来测试模型是否能够准确识别平面几何中的三角形类型或统计图表中的柱状图数量。
实际应用
在实际应用中,MATHGLANCE为智能教育系统开发提供了重要基准。基于该数据集训练的模型能够更准确地解析教科书中的几何图示,辅助学生理解数学概念。在STEM领域科研中,具备优秀图表感知能力的模型可以自动提取论文中的实验数据图表信息,显著提升文献分析效率。此外,该数据集还可用于开发辅助视障人士理解数学图表的无障碍技术。
衍生相关工作
MATHGLANCE催生了一系列改进数学视觉理解的研究工作。基于其发现,研究者提出了GeoPeP数据集,通过20万组结构化几何图文对显式标注形状、空间关系和边界框坐标,使模型感知准确率提升79%。相关工作还包括MathVerse对多模态数学问题的全面评估框架,以及G-LLaVA等专精几何推理的模型架构创新。这些衍生成果共同推动了数学图表理解领域的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作