kth8/gemma-4-E4B-it-MathVision-benchmark

Name: kth8/gemma-4-E4B-it-MathVision-benchmark
Creator: kth8
Published: 2026-04-30 13:52:10
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kth8/gemma-4-E4B-it-MathVision-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: google/gemma-4-E4B-it datasets: - MathLLMs/MathVision --- Benchmark of [google/gemma-4-E4B-it](https://huggingface.co/google/gemma-4-E4B-it) against [MathLLMs/MathVision](https://huggingface.co/datasets/MathLLMs/MathVision) dataset. Accuracy: 49.2% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 754 | | **Incorrect** | 776 | | **Errors** | 2 | | **Total samples** | 1532 | | **Python tool calls**| 7 | | **Python tool errors**| 0 | | **Total completion tokens** | 4,188,239 | Raw stats: ```json { "accuracy": 0.492, "correct": 754, "incorrect": 776, "error": 2, "total": 1532, "python_tool_calls": 7, "python_tool_errors": 0, "completion_tokens": 4188239 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

本数据集基于Google推出的Gemma-4-E4B-it大语言模型，针对MathLLMs团队发布的MathVision数学视觉基准数据集进行系统性评估而构建。通过将模型生成的数学推理答案与标准答案进行比对，统计正确、错误及异常样本数目，并引入Python工具辅助计算以提升判分准确性，最终形成包含1532个样本的评测基准数据集。

特点

该数据集的核心特点在于融合了多模态数学推理与视觉理解任务，全面检验模型在复杂数学图式场景下的表现能力。评测结果显示模型准确率达49.2%，其中正确样本754例，错误样本776例，仅出现2例异常。此外，数据集记录了7次Python工具调用且无错误发生，总计生成逾418万补全词元，为深入分析模型运算行为提供了详实的数据支撑。

使用方法

研究者可直接加载本数据集作为基准测试平台，通过调用Gemma-4-E4B-it模型对MathVision中的图文题目进行推理预测。推荐采用Python工具辅助执行复杂数学运算，参照本数据集提供的准确率评估框架与词元消耗指标，实现模型推理能力的量化对比与迭代优化。

背景与挑战

背景概述

随着大规模语言模型在数学推理任务中的广泛应用，评估其对复杂多模态数学问题的理解与解答能力成为领域内的重要研究课题。2025年，由MathLLMs团队构建的MathVision基准数据集应运而生，该数据集聚焦于视觉数学推理，融合了图文并茂的数学问题，旨在填补现有数学评测中缺乏视觉信息整合的空白。基于此，研究人员将Google开发的gemma-4-E4B-it模型在该数据集上进行系统性测试，实验结果显示模型在1532个样本上取得了49.2%的准确率，揭示了当前前沿语言模型在视觉数学推理任务中的性能瓶颈，为后续模型优化与多模态推理能力提升提供了关键参照。

当前挑战

当前gemma-4-E4B-it模型在MathVision基准上面临的核心挑战在于对视觉与文本信息深度融合的推理能力不足。首先，视觉数学推理要求模型不仅理解数学符号与自然语言，还需精准解析图表、几何图形等非结构化视觉输入，而现有模型在跨模态对齐与空间逻辑演绎上仍存在显著短板，导致近半数样本回答错误。其次，构建过程中，数据集的标注与质量控制极具挑战：需保证数学问题的多样性、视觉内容的准确性以及答案的严谨性，同时避免引入语言歧义或视觉噪声，这对构建高覆盖度且无偏的评估体系提出了严苛要求。

常用场景

经典使用场景

在视觉语言模型（VLM）蓬勃发展的当下，多模态数学推理已成为衡量模型认知能力的关键试金石。gemma-4-E4B-it-MathVision-benchmark 作为一项针对 Google gemma-4-E4B-it 模型的专项评测基准，其经典使用场景在于系统性地评估大规模语言模型在融合视觉与文本信息的数学问题求解任务中的表现。研究者借助该基准，能够精准度量模型处理图文并茂的数学难题时，从图像解析、符号识别到逻辑推导的端到端性能，为比较不同架构与训练策略下的模型推理能力提供了标准化的测试平台。

衍生相关工作

以本基准为基石，一系列衍生研究工作相继涌现。围绕 MathVision 数据集合与评测方法论，研究者们构建了诸如多模态链式推理框架、视觉数学语料增强策略以及工具增强型解码机制等创新方案。经典工作包括将本基准作为主要评估手段的比较研究，例如通过对比不同模型在几何图形标注与方程求解上的表现，提炼出跨模态注意力融合的关键设计原则。这些衍化不仅深化了对视觉数学推理本质的理解，还催生了更鲁棒的评测协议，如引入错误类型分析与工具调用效率指标。</s>

数据集最近研究