kth8/gemma-4-E4B-it-imo-answerbench-benchmark

Name: kth8/gemma-4-E4B-it-imo-answerbench-benchmark
Creator: kth8
Published: 2026-04-25 06:56:24
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/kth8/gemma-4-E4B-it-imo-answerbench-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Hwilner/imo-answerbench数据集

Hwilner/imo-answerbench dataset

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

该数据集基于Google的gemma-4-E4B-it大语言模型，针对Hwilner/imo-answerbench数学推理基准构建而成。构建过程中，模型被要求借助Python工具解决IMO级别的数学问题，共计处理400个样本，记录每次推理的正确答案、错误答案及工具调用结果，并汇总为量化指标。

特点

数据集的核心特点在于系统评估了gemma-4-E4B-it在复杂数学推理场景下的表现，准确率仅为32.5%，其中正确回答130题，错误270题，未出现运行时错误。特别之处在于模型调用了447次Python工具辅助计算，但存在21次工具执行错误，揭示了模型在数学推理中工具使用的稳定性瓶颈。

使用方法

使用者可直接加载Hwilner/imo-answerbench数据集，并参照本基准报告的评估流程，利用gemma-4-E4B-it模型配合Python工具进行推理测试。通过复现相同的工具调用与评分标准，可验证模型在数学推理任务上的性能，或对比其他模型在该基准下的表现差异。

背景与挑战

背景概述

该数据集是谷歌gemma-4-E4B-it模型在Hwilner/imo-answerbench基准上的评测结果，创建于2025年，由谷歌及其研究团队主导。核心研究问题在于评估大型语言模型在国际数学奥林匹克（IMO）级别问题上的推理与解题能力，尤其是借助Python工具进行符号计算与数值求解的表现。数据集涵盖400道高难度数学题目，模型仅取得32.5%的准确率，揭示了当前最先进模型在形式化数学推理方面的显著局限。该基准测试为衡量LLM在科学推理与数学能力方面的进展提供了重要标尺，推动了模型在工具使用与多步推理方向上的改进研究。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：国际数学奥林匹克题目需要复杂的数学直觉、严密的逻辑推导与创造性思维，即使借助Python工具，模型也仅能正确解答130题，错误率达67.5%，反映出LLM在处理需要深度数学推理、符号抽象与多步验证的任务时仍有巨大短板。在构建过程中的挑战包括：确保题目集涵盖不同难度与子领域（如代数、几何、数论）的平衡性，设计高质量的答案评估标准以避免自动评分偏差，以及处理工具调用失败（21次）和超长token消耗（约242万）所带来的资源与稳定性问题。

常用场景

经典使用场景

在人工智能与数学推理的交汇领域，Gemma-4-E4B-it-imo-answerbench-benchmark数据集被广泛应用于评估大型语言模型在复杂数学问题求解中的表现。该数据集基于国际数学奥林匹克（IMO）题目构建，旨在测试模型在零样本或少量样本场景下，借助Python代码工具进行逻辑推导与精确计算的能力。研究者常将其作为基准，衡量模型在符号运算、多步推理及避免计算错误方面的优劣，尤其是在需要生成可执行代码并验证其正确性的任务中。其经典使用方式包括比较不同模型在相同题目上的准确率，以及分析模型在面对高难度数学竞赛题时的脆弱性，从而为改进模型推理架构提供实证依据。

衍生相关工作

该数据集的发布催生了一系列围绕大语言模型数学推理能力评估与增强的衍生研究。直接相关的工作包括基于其评测结果提出的错误驱动迭代理微调方法，即通过标注模型在IMO题目上的失败案例，构建针对性掩码训练集以纠正特定错误模式。另一个方向是利用数据集中的Python工具执行记录，分析模型代码生成的质量与错误类型，从而设计更高效的代码辅助提示策略。此外，数据集还激发了将神经推理与外部符号求解器（如SymPy）结合的混合架构研究，其中模型负责策略性规划，求解器负责精确运算。更宏观地，该数据集与后续的MiniF2F、MathQA等基准形成互补，共同推动了从简单算术到竞赛级数学的全面评测生态建设。

数据集最近研究