math-ai-bench-sources-high

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/haowu89/math-ai-bench-sources-high

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为 math-ai-bench-sources-high，是从 haowu89/math-ai-bench-sources-final 中提取的问题级别子集。每个数据条目包含一个基准问题及8个选定的推理轨迹。数据集包含多个配置，每个配置对应不同的来源或基准（如aime25、arxivmath、olympiadbench等）。数据字段包括问题描述、原始解决方案、答案、来源、索引、模型标识符、生成的解决方案以及关于正确性、令牌计数和来源模型的元数据。所有配置均用于训练目的，如每个配置中的train分割所示。数据集规模从12到800个样本不等，具体取决于配置。

The dataset named math-ai-bench-sources-high is a question-level subset extracted from haowu89/math-ai-bench-sources-final. Each data entry contains a benchmark problem along with 8 selected reasoning trajectories. The dataset includes multiple configurations, each corresponding to a distinct source or benchmark (e.g., aime25, arxivmath, olympiadbench, etc.). The data fields encompass problem description, original solution, final answer, source, index, model identifier, generated solution, and metadata related to correctness, token count, and the source model. All configurations are intended for training purposes, as indicated by the train split within each configuration. The size of the dataset varies from 12 to 800 samples, depending on the specific configuration.

创建时间：

2026-04-16

原始信息汇总

数据集概述：math-ai-bench-sources-high

数据集来源

该数据集是基于 haowu89/math-ai-bench-sources-final 构建的问题级子集，每个数据行保留一个基准问题及其对应的8条精选推理轨迹。

数据结构

字段说明

每个样本包含以下字段：

problem (string)：问题描述
original_solution (string)：原始答案/解法
answer (string)：最终答案
source (string)：数据来源
index (int64)：索引编号
model (string)：混合质量桶标识符
generated_solutions (list of string)：8条精选的生成推理轨迹
count (int64)：轨迹数量，固定为8
context_metadata (struct)：包含以下子字段
- correctness (list of bool)：每条轨迹的正确性标签
- cot_num_token (list of int64)：每条轨迹的思维链(token)数量
- num_correct (int64)：正确轨迹数量
- num_wrong (int64)：错误轨迹数量
- source_candidate_count (int64)：候选来源数量
- source_models (list of string)：选中的来源模型
- source_traj_indices (list of int64)：选中的轨迹索引
- total_num_token (int64)：总token数量

数据格式

所有配置均仅包含 train 分割。

子集配置详细信息

配置名称	样本数量	数据集大小 (bytes)	下载大小 (bytes)
aime25	30	741,299	357,610
aime26	30	740,753	368,972
apex_2025	12	259,518	133,312
arxivmath	72	1,839,934	834,805
cmimc_2025	40	939,708	462,771
gpqa_diamond	198	5,162,654	2,305,977
hmmt_feb_2026	33	771,104	380,608
hmmt_nov_2025	30	735,119	369,695
imobench	400	9,746,878	4,376,653
olympiadbench	674	14,399,346	6,351,048
theoremqa	800	15,948,015	6,817,193

可用子集配置

aime25
aime26
apex_2025
arxivmath
cmimc_2025
gpqa_diamond
hmmt_feb_2026
hmmt_nov_2025
imobench
olympiadbench
theoremqa

搜集汇总

数据集介绍

构建方式

该数据集源自对 `haowu89/math-ai-bench-sources-final` 的精细化筛选与重组。构建过程中，保留每个基准数学问题的原始内容，并为其精心挑选8条高质量推理轨迹。每条轨迹均关联了详细的元数据，包括模型来源、令牌计数及正确性标签，从而构成了一个结构紧凑且信息丰富的层级化数据集合。数据集以11个独立配置子集的形式组织，分别对应不同的数学竞赛或学术基准源，如 aime25、olympiadbench 和 theoremqa 等，每个子集均统一采用 `train` 分割。

特点

数据集的核心特色在于其高度的选择性与结构化设计。每个样本不仅包含问题、标准答案与原始解法，还提供了由多种模型生成的8条经过筛选的推理链，并附有丰富的上下文元数据。这些元数据涵盖了每条轨迹的正确性、令牌长度、来源模型及其索引，使得数据集能够支持深入的多模型推理行为分析与质量评估。此外，数据来源覆盖了从顶尖数学竞赛（如AIME、HMMT）到学术论文库（如arXiv）的广泛领域，赋予了数据极佳的多样性与挑战性。

使用方法

本数据集通过HuggingFace Datasets库便捷加载，用户可按需指定具体配置名称（如 `aime25`）直接访问相应子集。每个样本包含问题文本、标准解答、模型生成的多样化推理轨迹及其详细的评估元数据。研究者可据此复现模型推理过程，分析不同模型在数学推理任务上的表现差异，或利用8条轨迹进行一致性检验、投票策略开发及推理路径质量排序等下游任务。数据集结构清晰，字段定义明确，适用于微调、评估与benchmark构建等多种研究场景。

背景与挑战

背景概述

math-ai-bench-sources-high数据集诞生于人工智能与数学推理加速融合的时代背景下，由研究团队构建并发布在HuggingFace平台。该数据集汇聚了来自aime25、aime26、gpqa_diamond等11个顶尖竞赛与学术资源的问题，旨在为数学推理模型提供高质量的基准测试素材。其核心研究议题在于如何精确评估与提升大语言模型在解决复杂数学命题时的推理能力。作为math-ai-bench-sources-final的精选子集，每个问题均配有8条模型生成的推理轨迹及详尽的正确性标注，为模型行为分析提供了结构化数据支撑。该数据集在数学推理评测领域具有标杆意义，推动了从单一答案正确性向多路径推理过程验证的研究范式转变。

当前挑战

数据集面临的首要挑战在于解决数学推理评测的深度问题：传统评测聚焦于答案正确性，而忽略了推理过程的多样性与鲁棒性。如何界定优质推理轨迹、如何平衡不同模型能力差异带来的采样偏差，成为核心难题。在构建过程中，团队需从海量候选回答中遴选出8条最具代表性的轨迹，涉及对同源模型生成内容的去冗余、对稀疏高难度问题的确保覆盖，以及跨多个数学竞赛来源的数据格式统一与质量对齐。此外，对推理链长度的差异、正确性标注的主观性以及元信息的结构化管理，均要求构建策略在自动化与人工校验间取得精妙平衡。

常用场景

经典使用场景

在人工智能与数学推理的交叉领域中，math-ai-bench-sources-high数据集为评估和提升大型语言模型的数学推理能力提供了高难度的基准。该数据集汇聚了来自AIME、GPQA Diamond、IMO Bench、OlympiadBench等顶尖竞赛与学术来源的题目，每道题目附有八条精心筛选的推理轨迹，使其成为测试模型在复杂数学问题求解、多步推理与逻辑演绎上性能的理想选择。研究者常利用该数据集对预训练模型进行微调，或作为强化学习框架下的奖励信号来源，以驱动模型在数学领域实现更深层次的认知突破。

解决学术问题

该数据集的核心价值在于系统性地应对大型语言模型在高级数学推理中普遍存在的“幻觉”与逻辑不一致问题。通过提供每道题目的多条正确与错误解答轨迹（附带token数量与正确性标注），它使学术界能够深入探究模型在不同推理路径上的行为差异，从而量化其不确定性。这解决了一个长期困扰的难题：如何从有限的正确/错误标签中提取更细粒度的推理质量信号。该数据集的意义在于推动了过程奖励模型、自我一致性策略以及基于轨迹的偏好优化方法的发展，为构建更具鲁棒性的数学推理智能体奠定了数据基础。

衍生相关工作

该数据集的发布催生了一系列富有影响力的后续研究。基于其丰富的推理轨迹，研究者开发了如“Math-Error Detection”和“Process Reward Model”等专项模型，专门用于定位数学推理中的逻辑断点。相关工作还包括利用轨迹对进行对比学习，通过最大化正确与错误路径的表征差异来优化语言模型的隐层表示。此外，该数据集被整合进了多个多任务学习框架中，与定理证明器协同训练，从而在形式化数学领域取得了更优的泛化性能。它也为SFT（监督微调）与RLHF（基于人类反馈的强化学习）在数学推理上的改进提供了标准化的评估基准。

以上内容由遇见数据集搜集并总结生成