math-ai-bench-sources-final
收藏Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/haowu89/math-ai-bench-sources-final
下载链接
链接失效反馈官方服务:
资源简介:
'math-ai-bench-pro' 是一个基于 'haowu89/math-ai-bench-sources-latest' 的按来源划分的数据集。该数据集包含多个配置(如 aime25、aime26、apex_2025、arxivmath、cmimc_2025、gpqa_diamond、hmmt_feb_2026、hmmt_nov_2025、imobench、olympiadbench、theoremqa),每个配置都有特定的特征和划分。数据集包含以下字段:'problem'(问题)、'original_solution'(原始解答)、'answer'(答案)、'source'(来源)、'index'(索引)、'model'(模型)、'generated_solutions'(生成的解答)、'count'(计数)和 'context_metadata'(上下文元数据)。'context_metadata' 包含 'generated_solutions' 的 token 计数。该数据集适用于数学 AI 基准测试任务。
创建时间:
2026-04-13
原始信息汇总
math-ai-bench-sources-final 数据集概述
数据集来源与构成
该数据集是 haowu89/math-ai-bench-sources-latest 的一个按来源划分的版本。每个数据行保留了原始基准测试的字段,并新增了以下内容:
context_metadata:使用tiktoken的o200k_base编码器计算的generated_solutions的令牌计数。original_solution:在zechen-nlp/math_ai_bench_cot中存在对齐子集的情况下复制而来。
数据集配置与结构
数据集包含11个独立的配置(config),每个配置对应一个特定的数学问题来源。
配置列表
aime25aime26apex_2025arxivmathcmimc_2025gpqa_diamondhmmt_feb_2026hmmt_nov_2025imobencholympiadbenchtheoremqa
数据特征
所有配置共享相同的特征结构,包含以下字段:
problem:问题文本。original_solution:原始解决方案。answer:答案。source:来源。index:索引。model:模型。generated_solutions:生成的解决方案列表。count:计数。context_metadata:一个结构体,包含:cot_num_token:思维链令牌数列表。total_num_token:总令牌数。
数据规模统计
以下是各配置的训练集数据规模:
| 配置名称 | 样本数量 | 数据集大小 (字节) | 下载大小 (字节) |
|---|---|---|---|
aime25 |
150 | 35,476,529 | 35,233,352 |
aime26 |
150 | 34,396,521 | 34,259,050 |
apex_2025 |
60 | 18,849,413 | 18,827,264 |
arxivmath |
360 | 104,198,768 | 103,955,588 |
cmimc_2025 |
200 | 52,275,364 | 52,176,400 |
gpqa_diamond |
990 | 163,156,989 | 162,382,662 |
hmmt_feb_2026 |
165 | 41,590,664 | 41,515,696 |
hmmt_nov_2025 |
150 | 36,296,395 | 36,229,726 |
imobench |
2000 | 527,758,742 | 526,948,401 |
olympiadbench |
3370 | 540,842,078 | 534,079,863 |
theoremqa |
3999 | 454,365,222 | 452,985,084 |
元数据统计摘要
下表汇总了按源模型划分的 context_metadata.total_num_token 的聚合分布。
| 模型 | 数量 | 平均值 | 中位数 | P90 | P95 | P99 | 最大值 |
|---|---|---|---|---|---|---|---|
Qwen2.5-1.5B-Instruct |
2319 | 4958.4118 | 4830 | 6391.6 | 6858.7 | 8059.66 | 35482 |
Qwen3-1.7B |
2319 | 6454.2885 | 6502 | 8890.2 | 9543.4 | 10954.48 | 25838 |
Qwen3-4B |
2319 | 6599.2643 | 6553 | 9142.8 | 9888.2 | 11551.24 | 14980 |
Qwen3-30B-A3B-Thinking-2507 |
2319 | 6673.4847 | 6527 | 9398.2 | 10234.0 | 11884.96 | 32501 |
Gemini-3-flash |
2318 | 6573.0708 | 6559.5 | 8971.2 | 9818.05 | 12318.43 | 16105 |
搜集汇总
数据集介绍

构建方式
在数学人工智能评估领域,构建高质量的数据集对于推动模型推理能力的发展至关重要。math-ai-bench-sources-final数据集通过整合多个权威数学竞赛和学术资源,如AIME、APEX、arXiv数学论文以及各类奥林匹克竞赛题目,形成了结构化的基准测试集合。其构建过程注重原始数据的保留与增强,不仅继承了源数据的问题、答案和解决方案,还引入了上下文元数据,包括通过tiktoken工具计算的思维链令牌数量,从而为模型输出提供了细致的量化分析基础。
特点
该数据集以其多源异构的架构脱颖而出,涵盖了从中学数学竞赛到前沿学术研究的广泛题目类型。每个配置均包含问题描述、标准解答、模型生成的多条解决方案以及详细的令牌统计信息,这种设计使得研究者能够深入探究不同模型在复杂数学推理任务上的表现差异。数据集中的上下文元数据字段,特别是思维链令牌的分布统计,为分析模型生成过程的复杂度和效率提供了关键指标,增强了评估的维度和深度。
使用方法
研究人员可利用该数据集进行数学推理模型的系统性评估与比较分析。通过加载特定配置,如aime25或olympiadbench,可以针对不同难度和领域的题目测试模型性能。生成解决方案的列表与对应的令牌计数使得自动评估模型输出的质量和效率成为可能,支持对思维链生成策略的深入研究。此外,数据集的结构化格式便于集成到现有的机器学习流程中,用于模型训练、微调或基准测试,推动数学人工智能技术的进步。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,评估模型解决复杂数学问题的能力成为关键研究方向。math-ai-bench-sources-final数据集作为haowu89/math-ai-bench-sources-latest的按来源划分版本,汇集了来自AIME、APEX、arXiv、CMIMC、GPQA、HMMT、IMO、奥林匹克数学以及TheoremQA等多个权威数学竞赛与学术资源的问题。该数据集由相关研究团队于近期构建,旨在为大型语言模型在数学推理任务上的性能提供细粒度、多来源的评估基准。其核心研究问题聚焦于模型在不同难度与风格数学问题上的泛化能力、逐步推理的准确性以及答案生成的可靠性,对推动数学人工智能的进步具有显著影响力。
当前挑战
该数据集致力于解决数学问题自动求解这一核心领域挑战,其面临的难题包括数学表述的多样性与精确性要求、多步骤逻辑推理的连贯性验证,以及开放域与竞赛级问题对模型深度理解能力的极高需求。在构建过程中,挑战主要源于多源数据的对齐与整合,例如将原始问题与zechen-nlp/math_ai_bench_cot中的对齐解决方案进行匹配;同时,为生成的解决方案计算精确的令牌数量元数据也增加了技术复杂性,需要确保评估指标的一致性与可比性。
常用场景
经典使用场景
在数学人工智能领域,该数据集作为基准测试的核心资源,广泛用于评估大型语言模型在复杂数学问题求解上的性能。其经典使用场景涉及对模型生成的解决方案进行系统性对比,通过整合来自多个权威数学竞赛和学术资源的问题,如AIME、IMO和arXiv数学文献,为研究者提供了一个多层次、高难度的评估平台。数据集中的每个条目不仅包含原始问题与标准答案,还附带了由不同模型生成的多种解决方案,使得研究人员能够深入分析模型在推理步骤、符号运算和最终答案准确性上的表现。
实际应用
在实际应用层面,该数据集为开发智能数学辅导系统和自动化解题工具提供了关键训练与验证数据。教育科技公司可利用其构建能够理解并解答高阶数学问题的AI助手,辅助学生进行奥林匹克竞赛准备或大学数学学习。同时,在科研自动化领域,数据集有助于训练模型自动解析和验证数学证明,辅助研究人员进行文献梳理与初步推理,提升科学发现的效率。其高质量的问题与解决方案对也为增强搜索引擎的数学问答能力提供了支持。
衍生相关工作
围绕该数据集,已衍生出一系列探索数学推理模型前沿的经典研究工作。这些工作主要聚焦于改进模型的思维链生成、多模型解决方案集成以及鲁棒性评估方法。例如,基于其构建的基准测试催生了针对数学特定领域的微调策略与提示工程技术的研究。同时,数据集支持了对不同规模模型在数学性能上缩放规律的深入分析,并激发了关于如何将形式化数学知识融入模型预训练的新范式讨论,为后续更强大的数学专用模型开发奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



