kth8/Qwen3.5-4B-imo-answerbench-benchmark
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/kth8/Qwen3.5-4B-imo-answerbench-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
base_model: Qwen/Qwen3.5-4B
datasets:
- Hwilner/imo-answerbench
---
Benchmark of [Qwen/Qwen3.5-4B](https://huggingface.co/Qwen/Qwen3.5-4B) against [Hwilner/imo-answerbench](https://huggingface.co/datasets/Hwilner/imo-answerbench) dataset.
Accuracy: 56.0% with Python tool.
| Metric | Value |
|----------------------|---------------|
| **Correct** | 224 |
| **Incorrect** | 171 |
| **Errors** | 5 |
| **Total samples** | 400 |
| **Python tool calls**| 4213 |
| **Total completion tokens** | 9,726,875 |
Raw stats:
```json
{
"accuracy": 0.56,
"correct": 224,
"incorrect": 171,
"error": 5,
"total": 400,
"python_tool_calls": 4213,
"completion_tokens": 9726875
}
```
提供机构:
kth8
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen/Qwen3.5-4B基础模型与Hwilner/imo-answerbench基准测试集构建而成。通过将模型推理性能与标准答案进行比对,系统性地评估了该模型在数学奥林匹克问题上的解决能力。数据集构建过程涵盖了400个样本,每个样本均经过模型生成答案、Python工具辅助验证及最终正确性判定三个步骤,最终以结构化表格和原始统计数据形式呈现评估结果。
特点
数据集以数学奥林匹克答案为基准,展现出高精度的评估特性。整体准确率达56.0%,在400个样本中,正确解答224个,错误解答171个,仅5个出现执行错误。累计调用Python工具4213次,消耗近千万个完成令牌,充分反映了大规模计算推理的深度与复杂度。数据集的精细度量体系为模型数学推理能力提供了可靠且可复现的量化指标。
使用方法
该数据集可直接用于评估其他语言模型在数学推理任务上的表现。使用者可加载Qwen3.5-4B模型,配合Python工具对imo-answerbench中的问题进行应答,并将结果与数据集中提供的正确性标签及统计指标进行对比。数据集输出的准确率、正确与错误计数、工具调用次数和令牌消耗量等指标,为模型优化与基准测试提供了标准化的参考框架。
背景与挑战
背景概述
以Qwen3.5-4B模型为基座,该数据集于近期由研究机构对Hwilner等人构建的imo-answerbench基准进行评测而创建。核心研究问题聚焦于评估大语言模型在数学推理任务中的真实能力,尤其是针对国际数学奥林匹克(IMO)级别问题的解答准确性。该基准通过Python工具调用和大量生成token来模拟复杂推理过程,其成果为理解当前开源模型在数学逻辑推演中的局限性提供了关键参考,对强化学习与推理增强型语言模型的发展具有显著推动作用。
当前挑战
该领域面临的核心挑战在于:国际数学奥林匹克问题要求模型具备多步推理、符号操作与严谨证明的综合能力,而当前大语言模型常陷入计算错误或逻辑中断。在构建过程中,需要克服模型对长序列生成的低效性(本数据集完成token数高达972万)、工具调用易出错(5次error)以及样本分布不均(400样本中错误171例)等难题。此外,72个错误样本揭示了模型在处理高难度组合与数论命题时的脆弱性,这对数据集的覆盖广度与鲁棒性验证提出了更高要求。
常用场景
经典使用场景
Qwen3.5-4B-imo-answerbench-benchmark作为一项专为评估大语言模型在数学推理任务上表现而设计的基准测试,其核心使用场景在于系统性地衡量语言模型在复杂数学问题(如国际数学奥林匹克风格题目)上的解题能力。科研人员借助这一基准,能够精确量化模型在符号运算、逻辑推导与多步求解等核心能力维度的表现,尤其是在启用了Python工具辅助推理的环境下,通过正确率、错误分布和工具调用次数等细粒度指标,深入剖析模型的数学推理机制与局限性。
衍生相关工作
围绕这一基准,衍生出了一系列影响深远的学术工作。研究者基于该数据集的评估范式,进一步探索了思维链提示、外部工具集成与多轮交互式推理等增强技术对于数学问题求解的增益效果。同时,该基准的细粒度错误分析数据催生了关于模型常见推理故障点的分类学研究,启发了诸如“数学推理缺陷图谱”与“对抗性数学样本生成”等前沿方向,更有团队以此为基础构建了专门激励数学推理能力的强化学习训练框架,推动了语言模型在符号执行领域的能力边界持续拓展。
数据集最近研究
最新研究方向
该数据集聚焦于评估Qwen3.5-4B模型在IMO(国际数学奥林匹克)级别的数学推理能力上的表现,通过结合Python工具辅助计算,在400道题目中取得了56%的准确率。这一研究方向紧密契合当前大语言模型在数学推理前沿的探索,尤其关注模型通过代码执行来增强计算准确性与逻辑严谨性的能力。随着AI在数学竞赛和复杂推理任务中表现日益引人瞩目,该类基准测试的建立不仅为评估模型数学智能提供了量化尺度,也推动了模型在符号计算、策略推理与工具调用整合方面的发展,为未来通用人工智能在STEM领域的应用奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



