AstralMath-v1

Hugging Face2026-02-15 更新2026-02-16 收录

下载链接：

https://huggingface.co/datasets/nguyen599/AstralMath-v1

下载链接

链接失效反馈

官方服务：

资源简介：

AstralMath-v1是一个大规模的多模型工具集成推理（TIR）数据集，专为针对竞争性数学的语言模型的监督微调（SFT）和强化学习（RL）训练而设计。该数据集通过两种互补的管道构建：一是从多个高质量数学数据集中精选并去重的问题，二是通过重写精选的数字或证明问题生成的新问题，这些问题与AIMO3竞赛风格对齐。所有转换后的答案均为[0, 99999]范围内的非负整数。数据集经过多阶段过滤，以确保仅保留需要高级推理和工具使用的挑战性问题。AstralBench是AstralMath-v1的一个精心挑选的子集，包含50个高质量问题，用于模型性能基准测试。数据集涵盖了多种数学主题和难度级别，当前模型性能准确率在5%至30%之间。数据来源包括Nemotron-Math-v2、AI-MO/NuminaMath-1.5、ScaleQuest-Math等多个高质量数学数据集，总计约1.5M原始问题，经过筛选和转换后保留136,151个问题。

创建时间：

2026-02-09

原始信息汇总

AstralMath-v1 数据集概述

数据集基本信息

名称: AstralMath-v1
语言: 英语 (en)
规模: 10万至100万条数据之间 (100K<n<1M)
许可证: cc-by-4.0, cc-by-sa-4.0, mit, apache-2.0
标签: 数学推理 (math-reasoning), 工具使用 (tool-use), 长上下文 (long-context)
任务类别: 文本生成 (text-generation)

数据集描述

AstralMath-v1 是一个用于数学问题求解的大规模多模型工具集成推理数据集，旨在用于针对竞赛数学的语言模型的监督微调和强化学习训练。

数据集构成

数据集通过两个互补的流程构建：

精选问题：来自多个高质量数学数据集的混合，经过去重以移除不同来源间的重叠问题。
合成转换问题：通过重写精选的数字或证明问题，生成符合AIMO3竞赛风格的新问题表述（例如，模运算转换、答案幂转换）。这些转换产生需要根本不同解决方法的新问题，而非表面改写。所有转换后的答案均为[0, 99999]范围内的非负整数。

数据筛选流程

采用多阶段过滤流程来选择困难但可解的问题：

问题长度：仅选择字符数大于100且行数小于50的问题。
包含图像：移除同时包含"![]"和"figure"的问题。
简单答案：移除答案在[0, 1]区间内的问题。
多项选择题：移除包含特定模式（如" A. ", " B. "）的问题。
双重问题：移除包含两个不相关问题的题目。
预过滤1：根据可用的LLM解决方案元数据（如解决方案长度或通过率）进行过滤。
去重：使用短文本哈希对所有来源进行去重。
预过滤2：使用gpt-oss-120b生成无需工具的解决方案，移除该模型一次尝试即可解决的简单问题。

数据来源与分布

来源	原始数量	精选数量	转换数量	百分比
Nemotron-Math-v2	~347k	89,344	70,596	65.6%
AI-MO/NuminaMath-1.5	~896k	28,363	0	20.8%
ScaleQuest-Math	~146k	10,139	0	7.4%
DeepScaleR-Preview-Dataset	~40k	7,580	7,580	5%
DeepMath-103K	~103k	540	540	0.4%
Project Euler	981	199	0	0.2%
IMO AnswerBench	400	24	0	-
总计	~1.5M	136,151	100%	100%

AstralBench 基准子集

AstralBench 是一个包含50个高质量问题的精选子集，用于基准测试模型性能。它涵盖了多样化的数学主题和难度级别，当前模型性能的准确率在5%到30%之间。

AstralBench 来源与转换

来源	数量	转换数量
IMOBench	46	20
Project Euler	4	4
总计	50	24

AstralBench 问题选自 IMOBench 和 Project Euler。对于具有非整数和符号答案的问题，通过更改参数、应用模运算（例如，要求模素数）以及重新表述最终问题句子，手动将其转换为新的数字答案问题。这确保了所有 AstralBench 问题都可以用数字答案解决，同时保持其原始复杂性。

数据文件

训练集 (train): stage1.jsonl
训练集 2 (train_2): stage2.jsonl

致谢

模型: DeepSeek-V3.2 (https://huggingface.co/deepseek-ai/DeepSeek-V3.2), GPT-OSS-120B (https://huggingface.co/openai/gpt-oss-120b), Step-3.5-Flash (https://huggingface.co/stepfun-ai/Step-3.5-Flash)
种子数据集: Nemotron-Math-v2 (https://huggingface.co/datasets/nvidia/Nemotron-Math-v2), NuminaMath-1.5 (https://huggingface.co/datasets/AI-MO/NuminaMath-1.5), ScaleQuest-Math (https://huggingface.co/datasets/dyyyyyyyy/ScaleQuest-Math), DeepScaleR-Preview-Dataset (https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset), DeepMath-103K (https://huggingface.co/datasets/zwhe99/DeepMath-103K), Project Euler (https://projecteuler.net/), IMO AnswerBench (https://github.com/google-deepmind/superhuman)

引用

@misc{nguyen2026astralmath, title={AstralMath-v1: A Large-Scale Multi-Model Tool-Integrated Reasoning Dataset for Mathematical Problem Solving}, author={Nguyen Nguyen}, year={2026}, url={https://huggingface.co/datasets/nguyen599/AstralMath-v1}, }

搜集汇总

数据集介绍

构建方式

在数学推理数据集构建领域，AstralMath-v1采用双管道策略整合高质量数学问题。其核心流程首先从多个权威数学数据源中筛选并去重，形成基础问题库；随后通过合成转换技术，将原始数值或证明类问题重构为符合AIMO3竞赛风格的新颖题目，例如引入模运算变换或答案幂变换，确保生成的问题在解题思路上具有本质性差异。构建过程中实施了多阶段过滤机制，依据题目长度、图像内容、答案范围及解题难度等维度进行严格筛选，最终保留约13.6万道需借助工具进行深度推理的挑战性问题，为模型训练提供了坚实的数据基础。

特点

AstralMath-v1数据集在数学问题求解领域展现出鲜明的特色。其问题分布广泛覆盖多个数学分支与难度层级，尤其注重保留需要高级推理与工具使用的复杂题目。数据集内嵌的AstralBench子集包含50道精心挑选的高质量基准问题，这些题目源自IMOBench和Project Euler等权威竞赛，并经过人工参数调整与模运算转换，确保所有答案均为非负整数，同时维持原题的思维挑战性。该数据集还具备长上下文处理能力，支持多模型工具集成推理，为评估模型在竞争性数学场景下的性能提供了标准化测试环境。

使用方法

针对数学推理模型的训练与评估，AstralMath-v1提供了明确的使用路径。研究者可将数据集直接应用于监督微调或强化学习阶段，通过模型学习题目中蕴含的多步骤推理模式与工具调用策略。对于性能评测，建议使用AstralBench子集进行标准化测试，该子集已转换为统一的数值答案格式，便于自动化评估模型输出准确性。数据加载可通过HuggingFace平台完成，依据配置文件中的train与train_2分割路径获取不同阶段的训练样本，从而系统化地提升模型在复杂数学问题上的求解能力。

背景与挑战

背景概述

AstralMath-v1是2026年由研究人员Nguyen Nguyen发布的大规模多模型工具集成推理数据集，旨在为面向竞争性数学的语言模型提供监督微调与强化学习的训练资源。该数据集整合了来自Nemotron-Math-v2、AI-MO/NuminaMath-1.5等多个高质量数学数据源的精选问题，并引入了基于AIMO3竞赛风格的合成转换机制，通过模算术变换、答案幂变换等方法生成新颖的数学问题。其核心研究问题聚焦于提升语言模型在复杂数学推理与工具调用方面的能力，尤其针对需要长上下文理解和高级逻辑推导的难题。该数据集的构建反映了当前数学人工智能领域向更深层次、更具挑战性的问题求解范式演进，为模型性能的基准测试与持续优化提供了关键支撑。

当前挑战

AstralMath-v1所针对的领域挑战在于解决竞争性数学问题求解中模型推理深度与工具集成能力的不足，传统方法往往难以处理需要多步逻辑推导和外部计算工具协同的复杂问题。在数据集构建过程中，首要挑战源自高质量问题的筛选与去重，需通过多阶段过滤管道剔除长度不当、包含图像、答案过于简单或存在重复的样本，确保保留最具挑战性的题目。其次，合成转换过程要求生成既保持原问题复杂性又需全新解法的问题，避免表面改写，这涉及精妙的数学变换与风格对齐。此外，基准子集AstralBench的构建需将非整数或符号答案的原始问题手动转化为数值答案问题，同时维持其固有难度，这对数据的一致性与可靠性提出了较高要求。

常用场景

经典使用场景

在数学推理与工具集成研究领域，AstralMath-v1数据集为语言模型的监督微调与强化学习提供了关键资源。该数据集通过精心筛选与合成转换，构建了大规模、高质量的数学问题集合，特别针对竞争性数学问题求解。其经典使用场景在于训练模型进行复杂数学推理，并整合外部工具（如计算器或符号求解器）以解决需要多步推导与精确数值答案的难题。数据集中的问题设计强调长上下文理解与高级逻辑思维，为提升模型在数学竞赛场景下的性能奠定了数据基础。

解决学术问题

AstralMath-v1数据集有效应对了当前数学推理研究中模型泛化能力不足与工具使用整合困难的挑战。它通过多阶段过滤机制，剔除了简单或重复的问题，专注于保留那些需要深度推理与工具辅助才能解决的难题，从而为模型训练提供了更具区分度的信号。该数据集解决了传统数学数据集在难度分布上的局限性，推动了模型在高级数学概念（如模运算、数论变换）上的理解与应用，为评估和提升模型在复杂数学任务上的鲁棒性与准确性提供了标准化基准。

衍生相关工作

围绕AstralMath-v1数据集，已衍生出一系列专注于数学推理与工具集成的前沿研究工作。例如，基于其基准子集AstralBench，研究者开发了新的评估框架以衡量模型在竞争性数学问题上的性能。同时，该数据集启发了对多模型协作推理、长上下文数学问题理解以及合成数据增强方法的深入探索。相关经典工作进一步推动了工具增强型语言模型在数学领域的应用，为构建更通用、更强大的数学问题求解智能体提供了重要的数据与实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集