five

MathReal

收藏
github2025-08-11 更新2025-08-15 收录
下载链接:
https://github.com/junfeng0288/MathReal
下载链接
链接失效反馈
官方服务:
资源简介:
MathReal是一个包含2000个视觉数学问题的数据集,问题来源于真实的K-12教育场景,图像通过手持移动设备拍摄,包含问题文本和相关图表。与之前的干净输入基准不同,它反映了现实世界的复杂性,将图像分为3种主要的退化类型——图像质量损失、视角变化和无关内容干扰——进一步细分为14个子类别。问题涵盖5个核心知识/能力类别、3种问题类型和3个难度级别。六种实验设置评估了40个MLLM,揭示了在现实条件下的显著性能下降。详细的错误分析突出了在识别、理解和推理方面的挑战,为未来模型改进提供了指导。

MathReal is a dataset containing 2000 visual mathematical problems derived from authentic K-12 educational contexts. The images are captured using handheld mobile devices and include both textual questions and associated graphs. Unlike previous clean input benchmarks, it reflects the complexities of the real world, categorizing images into three primary degradation types—image quality loss, perspective change, and irrelevant content interference—further subdivided into 14 subcategories. The problems encompass five core knowledge/skill categories, three types of questions, and three difficulty levels. Six experimental setups evaluated 40 MLLMs, revealing significant performance degradation under real-world conditions. A detailed error analysis highlights the challenges in recognition, understanding, and reasoning, providing guidance for future model improvements.
创建时间:
2025-08-07
原始信息汇总

MathReal 数据集概述

数据集简介

MathReal 是一个包含2000道视觉数学问题的数据集,源自K-12真实教育场景,通过手持移动设备拍摄获取,包含题目文本和相关图表。该数据集旨在评估多模态大语言模型在真实场景中的数学推理能力。

关键特性

  1. 多样化问题集

    • 涵盖5个核心知识/能力类别
    • 包含3种问题类型
    • 分为3个难度级别
  2. 真实世界图像

    • 全部为手持设备拍摄的真实教育场景照片
    • 包含3类视觉退化类型(14个子类别):
      • 图像质量下降
      • 视角变化
      • 无关内容干扰
  3. 评估指标

    • 6种实验设置
    • 支持识别、理解和推理能力的细粒度错误分析

数据集详情

数据集名称 托管平台 数据量
MathReal(testmini) Hugging Face 480

评估流程

  1. 答案提取

    • 输入:模型输出的JSON文件
    • 输出:提取答案的JSON文件
    • 工具:extract_answer_1.py
  2. 答案评估

    • 功能:
      • 数学等价性检查
      • 多部分答案处理
      • 单位感知比较
      • 选择题支持
    • 工具:evaluation_answer_2.py
  3. 分数计算

    • 输出:
      • 分类准确率
      • 总体准确率
    • 工具:calculate_answer_3.py

引用信息

bash @misc{feng2025mathrealrealrealscene, title={MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models}, author={Jun Feng and Zixin Wang and Zhentao Zhang and Yue Guo and Zhihan Zhou and Xiuyi Chen and Zhenyang Li and Dawei Yin}, year={2025}, eprint={2508.06009}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.06009}, }

联系方式

  • 邮箱:junfeng0288@gmail.com
搜集汇总
数据集介绍
main_image_url
构建方式
MathReal数据集的构建立足于真实教育场景,通过手持移动设备采集K-12阶段数学问题的实际图像,涵盖题目文本与相关图表。研究团队系统性地构建了2000道题目,依据图像退化类型划分为3大类14个子类,同时按照5类核心知识能力、3种题型和3级难度进行多维度标注。这种构建方式突破了传统基准测试的实验室环境限制,通过严格的图像质量筛选和分层抽样策略,确保了数据在真实性与多样性之间的平衡。
特点
该数据集的核心价值在于其真实场景的复杂性表征,包含图像质量损失、视角变化和无关内容干扰三类退化特征,细分为14种子类。题目内容覆盖算术、几何、代数等5个知识领域,包含选择题、填空题和解答题三种形式,并设置基础、中等、进阶三级难度。独特的六种实验设置能系统评估多模态大语言模型在视觉识别、语义理解和数学推理三个维度的综合能力,为模型缺陷诊断提供细粒度分析框架。
使用方法
使用者可通过Hugging Face平台获取数据集,安装指定Python环境后按照三步流程进行评估:首先利用extract_answer_1.py从模型输出中提取答案,随后通过evaluation_answer_2.py进行包含数学等价性判断的多维度比对,最终使用calculate_answer_3.py生成分类准确率报告。评估系统支持分数与小数转换、代数表达式匹配等复杂场景,并提供严格评分与部分学分两种计分模式,满足不同研究需求。
背景与挑战
背景概述
MathReal数据集由Jun Feng等研究人员于2025年推出,旨在为多模态大语言模型(MLLMs)的数学推理能力评估提供真实场景下的基准测试。该数据集包含2000道源自K-12教育场景的视觉数学问题,所有图像均通过手持移动设备拍摄,真实反映了教育环境中的复杂视觉条件。作为首个专注于真实场景数学推理的多模态基准,MathReal通过系统性地整合图像质量退化、视角变化和无关内容干扰等现实因素,填补了该领域在真实场景评估方面的空白,为MLLMs在复杂视觉条件下的数学推理能力提供了重要研究工具。
当前挑战
MathReal数据集主要解决多模态大语言模型在真实教育场景中数学推理能力评估的挑战。具体而言,该数据集需要应对三大核心问题:在图像质量退化的条件下保持数学符号和文本的准确识别,处理因拍摄角度导致的几何图形透视变形问题,以及过滤图像中与数学问题无关的干扰内容。在构建过程中,研究团队面临真实场景数据采集的标准化难题,包括如何在保持教育场景真实性的同时确保问题难度和知识点的均衡分布,以及开发能够准确评估模型在复杂视觉条件下数学推理能力的细粒度评价体系。
常用场景
经典使用场景
在数学教育技术领域,MathReal数据集为评估多模态大语言模型在真实场景中的数学推理能力提供了标准化测试平台。其2000道K-12数学题目通过手持设备拍摄的真实教育场景图像呈现,涵盖代数、几何等五大知识领域,特别适用于研究模型在图像质量退化、视角变化等现实干扰条件下的表现。研究人员通过六个实验设置系统检验模型在视觉识别、语义理解和逻辑推理三个维度的能力边界。
解决学术问题
该数据集有效解决了多模态推理研究中的关键痛点:传统基准测试使用清洗过的理想化输入,难以反映实际应用场景的复杂性。通过构建包含14类视觉干扰的真实图像库,MathReal首次量化了环境噪声对模型性能的影响程度。其细粒度分类体系(5类知识领域×3类题型×3级难度)使研究者能精准定位模型薄弱环节,为提升模型鲁棒性提供明确方向。
衍生相关工作
MathReal催生了多个创新研究方向,包括《视觉干扰鲁棒的数学公式识别》等顶会论文。其评估框架被Adaptive-Math等开源项目采纳为基准测试标准。数据集构建方法启发了PhysReal等跨学科基准的创建,推动真实场景多模态推理研究从数学向物理、化学等学科扩展。基于其细粒度错误分析,研究者提出了注意力机制改进方案DualFocus,在透视变形题目上的推理准确率提升17.8%。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作