answers-with-reasoning-omni-math
收藏Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/abhayesian/answers-with-reasoning-omni-math
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为answers-with-reasoning-omni-math,是通过自蒸馏的Qwen3-8B模型在Omni-MATH数据集上生成的推理轨迹,仅保留最终答案与标准答案匹配的样本,用于研究推理能力在不同领域的泛化性。数据集包含1062个训练样本,每个样本包含id、提示信息、消息列表、推理过程、答案等多个字段。数据通过严格的接受过滤器筛选,确保推理和答案非空且答案正确。数据集主要来源于数学竞赛如HMMT、IMO等,但存在对模型已解决问题过度代表的偏差。数据集还详细记录了模型的采样设置、评分方法及统计信息,适用于内部跨领域推理泛化研究。
创建时间:
2026-05-01
原始信息汇总
数据集概述:answers-with-reasoning-omni-math
基本信息
- 数据集地址:https://huggingface.co/datasets/abhayesian/answers-with-reasoning-omni-math
- 数据集大小:下载大小约12.06 MB,数据集总大小约29.77 MB
- 数据拆分:仅包含训练集(train),共1062个样本
- 数据格式:Parquet文件(路径:data/train-*)
数据集来源与构建
该数据集是使用 Qwen/Qwen3-8B 模型(推理模式开启)对 KbsdJames/Omni-MATH 数据集进行自蒸馏(self-distillation)得到的模型输出结果。经过过滤,仅保留最终答案与标准答案一致的样本。
属于同一项目下的三个兄弟数据集之一:
- answers-with-reasoning-omni-math(数学)
- answers-with-reasoning-mmlu-pro(通用问答)
- answers-with-reasoning-apps(编程)
采样设置
| 参数 | 值 |
|---|---|
| 模型 | Qwen/Qwen3-8B |
| 推理模式 | enable_thinking=True |
| 温度 | temperature=0.6 |
| top_p | 0.95 |
| 采样策略 | 每个问题仅采样一次(无过采样) |
数据特征(Schema)
每条记录包含模型完整的推理过程和最终答案:
| 字段名 | 类型 | 说明 |
|---|---|---|
| id | str | 唯一稳定ID |
| prompt | str | 采样时模型看到的用户输入内容 |
| messages | list[{role, content}] | 完整的聊天格式消息(系统+用户) |
| reasoning | str | 模型推理过程(不含<think>...</think>标签本身,仅标签内内容) |
| answer | str | 模型最终可见答案(</think>之后的内容,可能包含oxed{}等) |
| model | str | 固定为Qwen/Qwen3-8B |
| finish_reason | str | 始终为stop(仅保留正常结束的样本) |
| completion_tokens | int | 采样所使用的推理token数量 |
| prompt_tokens | int | 提示长度 |
| extracted_answer | str | 从</think>后文本中提取出的框选答案 |
| gold_answer | str | 数据集中标准答案(原始LaTeX格式) |
| domain | list[str] | 源数据集的领域标签 |
| difficulty | float | 源数据集的难度等级(1-9分制) |
| source | str | 源数据集的来源(如HMMT_2、imo_shortlist等) |
过滤条件
样本被保留需满足以下所有条件:
- 最终答案与标准答案匹配(使用
math_verify进行数学等价判定) - finish_reason == "stop"(输出正常结束,未被截断)
- 推理过程和最终答案均非空
评分机制
采用 math_verify 进行数学等价性判断:
- 标准答案使用
$...$包裹,以便LaTeX表达式正确解析 - 对模型输出,提取
</think>后的oxed{...}内容,重新包裹为oxed{...}后解析 - 若
math_verify无法判定,则回退到忽略空白符的字符串相等比较
数据统计
保留样本数:从1409个采样中保留了 824个样本(约58.5%)。
主要来源分布(保留样本数):
| 来源 | 保留数 |
|---|---|
| HMMT_2 | 226 |
| HMMT_11 | 222 |
| pascal | 76 |
| fermat | 75 |
| cayley | 65 |
| imo_shortlist | 18 |
| putnam | 15 |
| ToT | 12 |
| usamo | 11 |
| imc | 11 |
| baltic_way | 9 |
| imo | 6 |
| china_team_selection_test | 6 |
| problems_from_the_kmal_magazine | 5 |
| cono_sur_olympiad | 5 |
已知局限
- 选择偏差偏向简单题目:仅保留正确输出,导致数据过度代表Qwen3-8B已经能解决的题目。不同来源的保留率差异较大——HMMT/AMC约为75%,IMO/USAMO约为40%。
- math_verify版本锁定:要求≥0.9.0(附带
latex2sympy2-extended)。 - 少量错误标签:数据集中部分标准答案为自由格式的LaTeX或多值结果,极小部分“错误”标签实际上是
math_verify无法捕获的假阴性。保留的数据集偏向于有明确标准答案的表达。
引用
由Redwood Research的Ryan Greenblatt于2026年生成,用于Qwen3-8B的跨领域推理泛化内部研究,不适合用于外部基准测试发表。
搜集汇总
数据集介绍

构建方式
该数据集源自一项针对大语言模型推理泛化能力的研究项目。研究者以自蒸馏的方式,利用Qwen/Qwen3-8B模型(启用推理模式)在KbsdJames/Omni-MATH数学基准数据集上进行采样生成。采样配置在整个项目中保持一致:温度参数设为0.6,top_p设为0.95,每个问题仅采样一次。最终,通过严格的过滤流程保留轨迹:要求模型生成的最终答案与标准答案完全匹配(基于math_verify数学等价性校验)、结束原因为自然终止(stop)、且推理过程与最终回答均不为空。由此,从初始的1409次采样中筛选出824条高质量推理轨迹。
使用方法
该数据集以HuggingFace Datasets格式存储,提供标准的训练分割。使用者可通过load_dataset('abhayesian/answers-with-reasoning-omni-math')直接加载。每条记录包含prompt、messages、reasoning、answer等字段,便于直接用于推理链的复现、分析或微调。特别地,extracted_answer字段已从模型回答中提取出oxed{}内的内容,而gold_answer字段保留了源数据集的标准答案,极大简化了后处理流程。若需进行推理质量评估,建议搭配math_verify库(版本≥0.9.0)以获得准确的数学等价性判定。数据集的筛选标准及偏差已在项目文档中详细说明,使用者应在分析中充分考量这一选择性偏差对结论的影响。
背景与挑战
背景概述
在大型语言模型推理能力评估领域,数学推理任务因其对逻辑严谨性与符号操作的高要求,成为检验模型认知深度的关键试金石。answers-with-reasoning-omni-math数据集由Redwood Research的Ryan Greenblatt等人于2026年创建,核心研究问题聚焦于自蒸馏深度求索式推理(self-distilled reasoning)能否在不同领域间泛化。该数据集基于Qwen/Qwen3-8B模型对KbsdJames/Omni-MATH基准的824次正确滚动生成,筛选条件严苛——仅保留最终答案与参考答案一致、且推理链完整的样本。作为跨域推理泛化研究的三组数据集之一,它通过记录模型显式思维链(<think>...</think>)与最终答案,为探索推理机制的可迁移性提供了结构化数据支撑,在数学推理论文可复现性与模型行为分析领域具有示范价值。
当前挑战
该数据集所解决的领域问题核心挑战在于数学推理任务的评估信度:传统仅保留答案的基准难以区分模型是真正理解推理逻辑还是通过记忆模式匹配作答,而包含完整推理轨迹的数据对则能暴露模型在中间步骤的逻辑断裂。构建过程中的挑战则有三:其一,选择偏差——仅保留正确输出导致数据过度代表Qwen3-8B已擅长的简单题目(如HMMT/AMC接受率约75% vs. IMO/USAMO仅40%),削弱了困难样本的覆盖;其二,数学等价性验证的精度——基于math_verify的自动评阅在自由格式LaTeX表达式或含多部分值时易出现假阴性,约5%的“错误”标签实为验证器误判;其三,采样策略约束——每个问题仅单次采样(temperature=0.6),未通过多数投票或对比采样捕获模型输出空间的多样性,可能遗漏部分有效但非典型推理路径。
常用场景
经典使用场景
在数学推理与语言模型交叉研究领域,该数据集被广泛用作评估和增强大语言模型数学问题解决能力的基准资源。其经典用法聚焦于利用模型自身生成的思维链(Chain-of-Thought)推理轨迹,结合数学问题输入与对应标准答案,构成一组高质量的训练或微调样本。研究者常借助此数据集训练模型学习从问题到逐步推理、最终得出正确答案的完整推导路径,尤其适用于需要多步代数或几何推理的复杂数学任务场景。
解决学术问题
该数据集精准回应了数学推理领域中模型‘会做但不会想’的困境,即语言模型虽能给出答案但缺乏可解释、可验证的中间推理过程。通过筛选并保留与标准答案严格对齐的推理轨迹,数据集为学术研究提供了探索推理能力泛化性、模型自我蒸馏机制以及思维链可迁移性的关键材料。它使得定量分析不同数学领域(如竞赛数学、高等数学)的推理难度差异成为可能,并推动了关于推理过程长度与最终答案正确性之间关联性的系统性研究。
实际应用
在实际应用中,该数据集可作为数学教育智能辅导系统的训练基石,驱动模型为学生提供带有详尽步骤解析的解题指导。基于其高质量的推理样本,开发者可构建能够自动批改数学作业、生成个性化练习题并给出层次化解题思路的AI教辅工具。此外,该数据集的域标注特性(如来源为IMO、Putnam等竞赛)使其能够服务于多领域自适应学习系统,根据用户水平动态调整数学问题的推理复杂度,实现从基础训练到高阶竞赛的精准过渡。
数据集最近研究
最新研究方向
该数据集基于Qwen3-8B模型在Omni-MATH上的自蒸馏推理轨迹,聚焦于数学推理能力在跨领域泛化中的表现。通过严谨的过滤机制保留正确解答样本,揭示了语言模型在高级竞赛数学、奥林匹克试题等复杂推理任务中的行为模式。该研究对理解大语言模型的推理深度、知识迁移能力及自我一致性具有重要意义,尤其为构建可泛化的推理增强系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



