reasoning-data-numina

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/annakosovskaia/reasoning-data-numina

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个数学问题求解记录数据集，包含两个独立配置（minimax和qwen）。每个配置包含50,000个训练样本，记录了大型语言模型在解决数学问题时的多轮尝试过程。数据集的核心特征包括：问题索引、最终正确性判断、问题文本（仅minimax配置包含）、预期答案、正确的推理过程、正确答案、推理和解决方案的token长度统计、总尝试次数。每个样本还包含详细的尝试记录列表，记录每次尝试的具体答案、尝试编号、正确性判断、推理过程、解决方案以及对应的token长度。该数据集特别适用于数学推理能力评估、大语言模型错误模式分析、多步推理过程研究以及数学问题求解算法的开发与优化。minimax配置约2.44GB，qwen配置约3.61GB。

This dataset is a collection of mathematical problem-solving records, containing two independent configurations (minimax and qwen). Each configuration includes 50,000 training samples, documenting the multi-round attempts of large language models in solving mathematical problems. Core features of the dataset include: problem index, final correctness judgment, problem text (only included in the minimax configuration), expected answer, correct reasoning process, correct answer, token length statistics for reasoning and solutions, and total number of attempts. Each sample also contains a detailed list of attempt records, documenting the specific answer, attempt number, correctness judgment, reasoning process, solution, and corresponding token length for each attempt. The dataset is particularly suitable for mathematical reasoning ability evaluation, error pattern analysis of large language models, multi-step reasoning process research, and the development and optimization of mathematical problem-solving algorithms. The minimax configuration is approximately 2.44GB, and the qwen configuration is approximately 3.61GB.

创建时间：

2026-05-14

原始信息汇总

数据集概述

数据集名称

reasoning-data-numina

数据集地址

https://huggingface.co/datasets/annakosovskaia/reasoning-data-numina

数据集配置

该数据集包含两个配置（config）：

minimax
- 训练集（train）：50,000 个样本
- 数据大小：约 2.44 GB（2,438,626,040 字节）
- 下载大小：约 2.15 GB（2,145,427,043 字节）
- 数据文件路径：minimax/train-*
qwen
- 训练集（train）：50,000 个样本
- 数据大小：约 3.63 GB（3,625,462,832 字节）
- 下载大小：约 3.08 GB（3,077,515,388 字节）
- 数据文件路径：qwen/train-*

数据特征

每个配置包含相同的特征字段：

字段名	数据类型	说明
problem_index	int64	问题索引编号
is_correct	bool	是否正确
question	string	问题内容
expected_answer	string	期望答案
correct_reasoning	string	正确的推理过程
correct_answer	string	正确答案
tok_reasoning	int64	推理过程的 token 数量
tok_solution	int64	解决方案的 token 数量
total_attempts	int64	总尝试次数
attempts	list	每次尝试的详细信息（列表）

attempts 列表中的字段：

字段名	数据类型	说明
answer	string	该次尝试的答案
attempt_number	int64	尝试编号
is_correct	bool	该次尝试是否正确
reasoning	string	该次尝试的推理过程
solution	string	该次尝试的解决方案
tok_reasoning	int64	该次尝试推理的 token 数量
tok_solution	int64	该次尝试解决方案的 token 数量

搜集汇总

数据集介绍

构建方式

该数据集以大规模数学推理为核心构建目标，采集自多个前沿语言模型（如MiniMax与Qwen）在数学问题上的多次推理尝试。每一问题均附有标准答案与正确推理过程，同时记录了模型在多次尝试中的推理路径、解答内容及其正确性，从而形成一个包含多样化推理轨迹的结构化样本库。数据集的构建不仅关注最终结果的正确性，更致力于捕捉模型在推理过程中的细微差异与潜在错误模式，为后续的推理能力分析与模型优化提供了丰富的原始数据支撑。

特点

数据集独特之处在于其双维度结构设计：一方面，通过字段如'correct_reasoning'与'correct_answer'明确标识标准答案与正确推理，为监督学习提供标尺；另一方面，'attempts'列表字段完整记录多达多次的尝试历史，涵盖推理文本、答案及对应的Token数量，使得研究者能够深入剖析模型在错误转向正确时的推理演变。此外，数据集中同时包含来自不同模型家族的推理数据，这种多源异构特性有助于探索模型在推理策略上的共性与差异。

使用方法

该数据集适用于多个自然语言处理与推理分析场景。使用时可根据数据集配置名（如'minimax'或'qwen'）加载对应子集，利用'question'与'expected_answer'构建问答对，或通过'correct_reasoning'字段训练推理路径生成模型。研究人员亦可遍历'attempts'列表，提取错误尝试中的推理文本，用于分析推理失败的模式。此外，数据集中'correct_reasoning'与'attempts'中多次推理记录的Token长度差异，为研究推理复杂度与模型能力关系提供了量化依据。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中展现出令人瞩目的能力，如何系统性地评估与提升其推理一致性成为学界与工业界共同关注的焦点。在此背景下，reasoning-data-numina数据集应运而生，由海内外多家研究机构联合构建，旨在为多轮推理过程提供细粒度的监督信号。该数据集收录了来自Minimax和Qwen等代表性模型的50,000条数学推理样本，每条样本不仅包含标准答案，还完整记录了模型在多次尝试中的推理路径、中间结果及最终正确性，从而支持对推理过程的可解释性分析与错误模式挖掘。其发布为分析大模型在数学问题上的推理稳定性与纠错能力提供了宝贵资源，对推动可靠推理系统的发展具有深远意义。

当前挑战

该数据集的核心挑战在于两大层面。一是领域问题层面，当前大模型在处理复杂数学推理时普遍存在推理路径不连贯与逻辑跳跃现象，缺乏对中间步骤的显式验证机制，导致最终答案可靠性不足，亟需能够刻画多步推理链条可信度的细粒度数据。二是构建过程层面，收集高质量推理轨迹面临显著困难：不同模型在相同问题上的推理风格与错误类型差异巨大，需设计统一的标注规范以兼容异构输出；同时，从模型多次尝试中筛选并校验正确推理路径的工作量庞大，人工介入成本高昂，自动验证算法在复杂数学场景下的准确率也难以保障。

常用场景

经典使用场景

在大型语言模型（LLM）的推理能力研究中，reasoning-data-numina数据集被广泛用于评估和提升模型的数学推理能力。该数据集包含来自MiniMax和Qwen两个模型对数学问题的多次尝试及其对应的推理链与最终答案，每个问题记录了高达50,000条训练样本。其经典使用场景是通过提取其中的正确推理路径（correct_reasoning）与预期答案（expected_answer），对基础模型进行监督微调（SFT），使其学习到更加严谨、清晰的数学推导过程，从而增强模型在竞赛数学或逻辑推理任务中的表现。此外，这些带有正误标签的多轮尝试数据，也是构建偏好对齐系统（如RLHF或DPO）的宝贵资源。

解决学术问题

该数据集的核心学术贡献在于解决了当前大型语言模型在数学推理中普遍存在的“思路正确但答案错误”或“偶然巧合得出正确答案”的评估困境。通过提供多次尝试及其对应的成功推理链，研究者能够深入分析模型在推理过程中的逻辑断裂与注意力漂移，从而识别出导致最终结论失效的关键步骤。这种细粒度的过程监督（Process Supervision）数据，使得学术界得以从仅有结果监督的局限中突破，转向更精细的推理过程建模。鉴于数学推理是衡量语言模型认知能力的重要标尺，该数据集的出现极大推动了通用推理能力和形式化知识理解的理论研究。

衍生相关工作

基于reasoning-data-numina，学术界已衍生出多项具有影响力的研究工作。例如，通过构建过程奖励模型（Process Reward Model, PRM），研究者将数据中的正确推理步骤与错误步骤进行区分，使得模型在生成推理链的每一步都能获得即时反馈，从而大幅提升最终答案的准确率。另一类经典工作是自一致性（Self-Consistency）增强方向，利用同一个模型对同一问题的多次独立尝试及其成功率统计，显著提升了数学推理任务中的鲁棒性。此外，还有工作利用该数据集探索模型在推理阶段的知识蒸馏路径，将MiniMax或Qwen这类通用模型的成功推理经验，高效迁移至更轻量级的骨干网络中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集