MathReal

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/junfeng0288/MathReal

下载链接

链接失效反馈

官方服务：

资源简介：

MathReal数据集旨在评估多模态大型语言模型在真实世界K-12数学问题上的性能。该数据集包含2000个高质量的数学问题，每个问题都以捕获在真实教育环境中的图像形式呈现。数据集中的问题类型多样，包括选择题、填空题和构造性回答等，并按难度级别和知识领域进行分类。

创建时间：

2025-08-08

原始信息汇总

MathReal数据集概述

基本信息

许可证: MIT
任务类别: 问答系统
语言: 中文、英文
标签: 数学
数据规模: 1K<n<10K
配置:
- 默认配置
- 数据文件: testmini.json (测试小集)

数据集描述

MathReal数据集旨在评估**多模态大语言模型(MLLMs)**在真实世界K-12数学问题上的表现。包含2000个高质量数学问题，每个问题以真实教育场景中捕获的图像形式呈现。问题类型包括：

选择题
填空题
建构反应题

数据集按难度级别和知识领域分类，挑战MLLMs在视觉基础数学问题上的理解和推理能力。

数据结构

图像目录

img/ ├── clean/ # 175张清洁图像(PNG格式) │ ├── 0004.png │ ├── 0006.png │ └── ... └── real/ # 480张真实图像(JPG格式) ├── 0001.jpg ├── 0002.jpg └── ...

图像类别

真实图像: 480张JPG格式原始图像，代表教育场景中的真实数学问题
清洁图像: 175张PNG格式处理图像，为模型评估提供标准化问题

示例问题

平面几何(PG): 涉及几何形状和计算
立体几何(SG): 包含3D形状和体积计算
逻辑推理(LR): 需要数学演绎
函数图(FG): 函数图分析和解释
统计图表(SC): 统计图表分析和数据解读

许可协议

MIT许可证

搜集汇总

数据集介绍

构建方式

在数学教育评估领域，MathReal数据集通过精心采集真实场景下的K-12数学问题构建而成。研究团队采用双模态设计策略，将2000道数学题目转化为视觉化表达，其中480张原始图像保留真实教学场景的复杂细节，175张经过标准化处理的图像则确保评估的严谨性。数据构建过程严格遵循教育测量学标准，题目涵盖选择题、填空题和建构性回答等多种形式，并按知识领域和难度层级进行系统分类。

使用方法

研究人员可通过加载testmini.json配置文件快速接入数据集，其中图像数据按real和clean双目录存储，分别对应不同应用场景。评估时建议采用交叉验证策略，先在标准化图像上测试基础能力，再使用原始图像评估真实场景适应力。数据集支持视觉问答、多选判断等任务模式，配套的在线排行榜系统可实时比较不同模型的几何推理、图表解析等细分能力表现。

背景与挑战

背景概述

MathReal数据集由研究人员Jun Feng等人于2025年创建，旨在评估多模态大语言模型在真实教育场景下的数学推理能力。该数据集包含2000道K-12阶段的数学题目，涵盖选择题、填空题和解答题等多种题型，并按照难度和知识领域进行分类。作为首个专注于真实场景数学问题的多模态基准，MathReal通过图像形式呈现题目，模拟了实际教学环境中的视觉复杂性，为研究多模态理解与数学推理的交叉领域提供了重要资源。

当前挑战

该数据集主要解决多模态模型在真实教育场景中解析视觉化数学问题的挑战，包括手写公式识别、图表数据提取以及多步骤推理等难点。构建过程中面临双重困难：既要保证题目图像的真实性，涵盖不同拍摄条件和书写风格；又需建立精确的标注体系，处理数学符号的歧义性和解题路径的多样性。数据采集阶段还需平衡题目难度分布，确保覆盖几何、函数、统计等核心数学领域。

常用场景

经典使用场景

在数学教育领域，MathReal数据集为多模态大语言模型（MLLMs）的评估提供了真实场景下的数学问题。该数据集包含2000道高质量的K-12数学题目，涵盖选择题、填空题和构造性回答等多种题型，并以图像形式呈现。这些题目按照难度和知识领域分类，能够全面测试模型在视觉基础数学问题上的理解和推理能力。

解决学术问题

MathReal数据集解决了多模态大语言模型在真实教育场景中数学推理能力评估的难题。通过提供多样化的题目类型和难度级别，该数据集能够帮助研究者验证模型在几何、逻辑推理、函数图像和统计图表等领域的表现。其真实场景的图像数据为模型在复杂环境下的适应性研究提供了重要支持，推动了多模态推理技术的发展。

实际应用

MathReal数据集的实际应用场景广泛，尤其在智能教育系统和在线学习平台中表现突出。教育机构可以利用该数据集开发自适应学习工具，根据学生的答题表现提供个性化辅导。此外，该数据集还能用于优化数学题目的自动生成和评分系统，提升教育评估的效率和准确性。

数据集最近研究