math-ai-bench-sources-middle

Hugging Face2026-04-26 更新2026-04-27 收录

下载链接：

https://huggingface.co/datasets/haowu89/math-ai-bench-sources-middle

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为 math-ai-bench-sources-middle，是从 haowu89/math-ai-bench-sources-final 中提取的问题级别子集。每条数据包含一个基准问题及其8个选定的推理轨迹。数据字段包括问题描述、原始解决方案、答案、来源、索引、模型标识符、生成的解决方案以及上下文元数据（如正确性标签、令牌计数等）。数据集包含多个配置，如 aime25、aime26、apex_2025 等，每个配置都有相应的训练集大小和示例数量。该数据集适用于数学问题求解和人工智能推理任务的研究与评估。

This dataset, named `math-ai-bench-sources-middle`, is a question-level subset extracted from `haowu89/math-ai-bench-sources-final`. Each entry in the dataset contains a benchmark problem along with 8 selected reasoning trajectories. Its data fields include problem description, original solution, answer, source, index, model identifier, generated solution, and contextual metadata (e.g., correctness labels, token counts, etc.). The dataset offers multiple configurations, such as aime25, aime26, apex_2025, etc., each with corresponding training set size and number of examples. This dataset is suitable for research and evaluation of mathematical problem-solving and AI reasoning tasks.

创建时间：

2026-04-16

原始信息汇总

数据集概述：math-ai-bench-sources-middle

该数据集是从 haowu89/math-ai-bench-sources-final 构建的问题级子集，每个数据行保留一个基准测试问题及其8条选定的推理轨迹。

数据集配置

数据集包含以下11个配置（config），每个对应一个数学基准测试：

配置名称	训练集样本数	训练集大小
aime25	30	759,430 字节
aime26	30	712,724 字节
apex_2025	12	278,295 字节
arxivmath	72	1,851,763 字节
cmimc_2025	40	936,692 字节
gpqa_diamond	198	5,122,250 字节
hmmt_feb_2026	33	765,984 字节
hmmt_nov_2025	30	718,445 字节
imobench	400	9,490,020 字节
olympiadbench	674	14,042,608 字节
theoremqa	800	15,704,104 字节

数据字段

每个样本包含以下字段：

problem（字符串）：数学问题
original_solution（字符串）：原始解答
answer（字符串）：答案
source（字符串）：数据来源
index（整数）：索引编号
model（字符串）：混合质量桶标识符
generated_solutions（字符串列表）：8条选定的推理轨迹
count（整数）：固定为8
context_metadata（结构体）：包含以下子字段：
- correctness（布尔列表）：每条轨迹的正确性标签
- cot_num_token（整数列表）：每条轨迹的思考链token数量
- num_correct（整数）：正确轨迹数量
- num_wrong（整数）：错误轨迹数量
- source_candidate_count（整数）：源候选数量
- source_models（字符串列表）：选定的源模型
- source_traj_indices（整数列表）：选定的轨迹索引
- total_num_token（整数）：总token数

数据划分

所有配置均只包含一个 train（训练）划分，无验证集或测试集划分。

搜集汇总

数据集介绍

构建方式

在数学推理与人工智能交叉研究领域，基准数据集的构建需兼顾题目的广度与解答的深度。math-ai-bench-sources-middle数据集源自haowu89/math-ai-bench-sources-final，通过从最终数据集中抽取每个问题的8条精选推理轨迹，形成了面向中间质量层次的子集。每条数据保留了基准问题的原始字段，包括问题陈述、标准解答、正确答案、来源及索引，并附加了混合质量桶标识符以及由正确性标签、令牌计数、源模型和轨迹索引构成的上下文元数据。这一构建方式确保了数据在保持原问题多样性的同时，提供了丰富的多路径推理样本。

特点

该数据集的核心特点在于其精细的多源融合结构与中层质量定位。它汇集了来自AIME、APEX、arXiv、CMIMC、GPQA、HMMT、IMO Bench、OlympiadBench和TheoremQA等十余个数学竞赛与学术基准的题目，共计超过1600个样本，覆盖从高中到研究生水平的数学问题。每个问题配备8条完整且经过筛选的推理链，并标注了每条轨迹的正确性、令牌消耗及来源模型，便于研究者对推理行为进行细粒度分析。这种设计使其特别适合用于训练模型的中间推理能力、研究多轨迹聚合策略或评估模型的鲁棒性。

使用方法

使用该数据集时，研究者可通过HuggingFace Datasets库加载指定的子配置，例如选取aime25或theoremqa等，直接获取包含问题、答案及多轨迹的训练集。每条数据的generated_solutions字段提供了8条字符串形式的推理轨迹，可结合context_metadata中的正确性标签进行对比分析。建议将数据用于强化学习中的奖励建模、多轨迹投票机制的性能评估，或作为训练数据增强模型逐步推理能力的中间阶段样本。数据集已按统一格式组织，可直接接入常见的深度学习框架。

背景与挑战

背景概述

在人工智能与数学推理的交汇领域，构建高质量、多源头的数学基准数据集对于评估大型语言模型的推理能力至关重要。math-ai-bench-sources-middle数据集由相关研究人员于近期创建，旨在整合来自AIME、APEX、CMIMC、GPQA、HMMT、IMO、OlympiadBench及TheoremQA等多个权威数学竞赛与学术来源的题目。该数据集以“问题-解法”对为核心，每道题目附有8条精选的推理轨迹及元信息，为数学推理模型的训练与评测提供了结构化、标准化的资源。其核心研究问题聚焦于如何通过多源、精细化的数据设计，推动模型在复杂数学推理与逻辑推导上的实质性突破，对提升AI在数学领域的表现具有深远影响。

当前挑战

该数据集所解决的领域挑战在于，现有数学推理数据集往往来源单一、规模有限，难以全面评估模型在跨类型、高难度数学问题上的泛化能力。通过整合多个竞赛与理论题目，数据集有效弥补了这一缺口。构建过程中面临的挑战包括：如何从海量原始轨迹中筛选出高质量、多样化的推理路径，并确保其正确性与代表性；同时需统一不同来源题目的格式与注释标准，维护数据的一致性。此外，对每道题目存储8条推理轨迹及详尽元信息，增加了数据管理的复杂度，要求设计稳健的结构以支持高效的检索与分析。

常用场景

经典使用场景

在数学推理与人工智能交叉研究的浪潮中，math-ai-bench-sources-middle 数据集凭借其精细化的结构脱颖而出，成为评估与训练大型语言模型数学能力的核心资源。该数据集汇聚了来自 AIME、CMIMC、HMMT 等国际顶尖数学竞赛以及 GPQA、TheoremQA 等专业推理基准的题目，每道题目均配有原始解答、正确答案以及 8 条经过筛选的模型推理轨迹。研究者可借助这些多源、多层次的轨迹数据，深入探究模型在不同难度与类型数学问题上的推理模式，从而开展系统性、可复现的数学推理能力评测。

实际应用

在实际应用层面，math-ai-bench-sources-middle 数据集为开发高性能数学推理系统提供了不可多得的训练与验证平台。教育科技领域可基于该数据构建智能辅导系统，通过分析学生或模型在典型竞赛题上的推理轨迹，实现个性化学习路径推荐与错误原因诊断。同时，数据集中的多轨迹结构可用于改进检索增强生成与自我纠错机制，提升系统在科研文献解析、自动定理证明等场景中的可靠性。金融、工程等依赖复杂计算的行业亦可借鉴其高质量推理范例，优化自动化决策与风险分析流程。

衍生相关工作

基于该数据集的独特结构，学界已催生出多项经典衍生工作。在推理轨迹分析方面，研究者利用其正确性与长度元数据，开发了推理路径多样性评估框架，用以衡量模型在不同难度问题上的稳健性。在模型训练方法上，相关研究借鉴其多轨迹对比范式，提出了基于轨迹排序的偏好优化策略，有效提升了模型在数学竞赛题上的求解精度。此外，该数据集还激发了跨基准迁移学习工作，研究人员通过组合各类子集进行多任务训练，探索了数学推理能力的泛化边界。这些衍生工作共同推动了数学人工智能从单一答案评测向过程化、结构化研究的转型。

以上内容由遇见数据集搜集并总结生成