kth8/gpt-oss-20b-imo-answerbench-benchmark

Name: kth8/gpt-oss-20b-imo-answerbench-benchmark
Creator: kth8
Published: 2026-04-30 17:05:37
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kth8/gpt-oss-20b-imo-answerbench-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en base_model: openai/gpt-oss-20b datasets: - Hwilner/imo-answerbench --- Benchmark of [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) against [Hwilner/imo-answerbench](https://huggingface.co/datasets/Hwilner/imo-answerbench) dataset. Accuracy: 59.4% with Python tool. | Metric | Value | |----------------------|---------------| | **Correct** | 237 | | **Incorrect** | 161 | | **Errors** | 2 | | **Total samples** | 400 | | **Python tool calls**| 2740 | | **Python tool errors**| 323 | | **Total completion tokens** | 4,425,006 | Raw stats: ```json { "accuracy": 0.594, "correct": 237, "incorrect": 161, "error": 2, "total": 399, "python_tool_calls": 2740, "python_tool_errors": 323, "completion_tokens": 4425006 } ```

提供机构：

kth8

搜集汇总

数据集介绍

构建方式

该基准数据集基于开源模型 gpt-oss-20b 对 Hwilner/imo-answerbench 数据集的系统性评估而构建。通过向模型输入 400 个来自国际数学奥林匹克（IMO）的题目样本，并配备 Python 工具以辅助代码执行与结果校验，最终依据模型输出与标准答案的匹配情况，统计正确、错误及错误样本数量。构建过程中共触发 2740 次 Python 工具调用，记录了 323 次工具执行错误，确保了对模型数学推理能力的多维度量化。

特点

数据集的核心特点在于其聚焦于高难度数学推理任务的评估基准，以 59.4% 的准确率揭示了 gpt-oss-20b 在复杂符号计算与逻辑推导中的表现局限。总计 4425006 个补全令牌的消耗，体现了模型解决每个问题所需的大量计算资源。错误样本仅 2 例，表明模型输出具有高度稳定性，而工具调用错误率（11.8%）则反映了代码生成任务中的潜在脆弱性。

使用方法

研究者可直接加载本数据集中的 400 条样本及对应的模型输出统计结果，用于对比不同大语言模型在数学竞赛问题上的性能差异。使用时应关注 Python 工具调用次数与错误率，以评估模型的代码推理可靠性。推荐结合原始 Hwilner/imo-answerbench 数据集中的标准答案，进一步分析模型在代数、几何、数论等子领域的表现分化。

背景与挑战

背景概述

该数据集源于对OpenAI提出的gpt-oss-20b模型在数学推理任务上的系统评估，由研究团队基于Hwilner/imo-answerbench构建，专注于国际数学奥林匹克（IMO）级别的答案验证。创建时间可追溯至大语言模型在复杂符号推理与工具调用能力突飞猛进的阶段，核心研究问题在于探明开源模型在需要多步编程辅助的高阶数学问题中的表现边界。通过记录400个样本的准确率、工具调用次数与错误分布，该基准为理解模型在结构化解题环境中的可靠性提供了关键量化依据，对评估和改进大语言模型的数学推理能力具有重要参考价值。

当前挑战

所解决的领域问题在于大语言模型面对IMO类型数学题时，单纯依靠文本生成难以保证逻辑严谨性与计算精确性，而gpt-oss-20b通过集成Python工具执行代数学推导、数值验证等操作，试图弥补纯语言模型的推理短板。然而，构建过程中面临多重挑战：其一，模型在2740次Python工具调用中产生323次工具执行错误，表明代码生成与运行环境之间的兼容性问题显著；其二，高达4,425,006个补全token的消耗揭示了长链推理对计算资源的苛求；其三，仅59.4%的准确率凸显当前模型在复杂数学问题上的能力局限，尤其是错误与误差样本占比超过40%，暴露出模型在符号操作与错误传播控制上的脆弱性。

常用场景

经典使用场景

gpt-oss-20b-imo-answerbench-benchmark数据集的核心用途在于评估和验证开放源代码大语言模型在复杂数学推理任务上的表现。该数据集精选了国际数学奥林匹克（IMO）风格的题目，通过对比模型答案与标准答案，精准衡量模型在符号运算、逻辑推导与问题求解方面的能力。研究者常利用该数据集对GPT系列等开源模型进行标准化测试，以洞察其在高级数学领域的推理潜力与局限。

衍生相关工作

围绕该数据集，衍生出一系列关于大模型推理能力增强的研究工作。例如，研究者借鉴其评估框架，提出了基于过程监督的奖励模型（如PRM）以优化解题步长；或利用其错误分析结果，开发了多轮工具调用策略来减少计算偏差。此外，该数据集还催生了针对开放式数学问题的提示工程研究，以及将外部知识库与模型推理相结合的混合系统设计，这些工作共同推动了数学人工智能从理论走向实践。

数据集最近研究