numina_q3-32b_v5_filtered

Hugging Face2026-05-20 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/cpsu04/numina_q3-32b_v5_filtered

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于比较和评估语言模型生成结果的数据集，专门设计用于偏好对齐和模型评估任务。数据集包含54,230个训练样本，每个样本由五个关键字段组成：prompt（用户输入的提示词）、chosen（模型生成中被选为更优或更合适的回答）、rejected（模型生成中被拒绝或较差的回答）、model（生成回答所使用的模型名称）、failure_mode（标注的回答失败模式或问题类型）。数据集的典型应用场景包括训练奖励模型、进行人类偏好对齐、评估不同模型生成质量、以及分析语言模型在特定任务上的失败模式。数据集结构清晰，适用于监督微调、对比学习等机器学习任务。

创建时间：

2026-05-20

原始信息汇总

根据您提供的数据集详情页面，以下是对该数据集的总结：

数据集概述

数据集名称：numina_q3-32b_v5_filtered
数据集地址：https://huggingface.co/datasets/cpsu04/numina_q3-32b_v5_filtered

数据集特征

该数据集包含以下五个字段：

字段名称	数据类型	说明
prompt	string	提示文本
chosen	string	被选中的响应
rejected	string	被拒绝的响应
model	string	模型名称
failure_mode	string	失败模式

数据集划分

数据集中仅包含一个划分：

训练集（train）：
- 样本数量：54,230 条
- 数据大小：73,978,504 字节

数据集规模

下载大小：30,914,081 字节（约29.5 MB）
数据集总大小：73,978,504 字节（约70.6 MB）

配置文件

配置名称：default
数据文件：训练集数据存储在路径 data/train-* 下

搜集汇总

数据集介绍

构建方式

该数据集源自对NuminaMath-Q3-32B模型生成结果的精细筛选与后处理。构建过程中，首先利用该模型针对大量数学推理问题生成候选回答，随后通过自动化评估与人工校验相结合的方式，甄别出正确（chosen）与错误（rejected）的推理路径。仅保留那些能清晰揭示模型错误模式（failure_mode）的样本，形成包含54230条训练实例的高质量偏好数据集，每条记录均包含原始提示、正反例答案及对应的失败原因标注。

特点

数据集的核心特色在于其结构化地捕捉了数学推理中模型失败的具体类型，而非仅提供二元正确/错误标签。每个样本均明确标注失败模式，如计算错误、逻辑跳跃或步骤遗漏，为分析模型鲁棒性提供了细粒度信息。此外，数据经过严格筛选，仅保留能有效区分模型性能差异的挑战性样本，避免了简单或冗余事例的干扰，从而增强了数据集在偏好对齐与错误分析任务中的实用价值。

使用方法

该数据集可直接用于训练偏好对齐模型，如通过DPO或RLHF方法优化数学推理能力。使用时，可将'prompt'字段作为输入，'chosen'作为目标正例，'rejected'作为负例进行对比学习。同时，'failure_mode'字段支持针对特定错误类型的条件式微调或错误检测任务。数据已预分割为训练集，推荐按照HuggingFace Datasets库的标准加载流程，直接读取'train'分片即可复现实验设置。

背景与挑战

背景概述

在人工智能研究的前沿领域，数学推理能力的增强是大型语言模型发展的核心挑战之一。该数据集由Numina团队于近期创建，旨在通过偏好优化方法提升模型在复杂数学问题上的表现。数据集包含54230个训练样本，每个样本由问题文本（prompt）、优选解答（chosen）、被拒解答（rejected）、模型来源（model）及失败模式（failure_mode）构成，为研究数学推理中的错误类型与偏好对齐提供了结构化资源。作为数学推理数据集体系中的重要补充，该资源聚焦于识别和纠正模型在符号运算、逻辑推导等环节的典型失误，对推动数学A I系统的可解释性和稳健性具有显著意义。

当前挑战

该数据集所解决的领域问题在于数学推理的脆弱性——标准语言模型在面对复杂多步推导时易产生逻辑断裂或计算错误，而现有偏好数据常缺乏对错误根因的细粒度刻画。构建过程中，团队面临双重挑战：其一，需要从大规模模型输出中自动筛选并标注失败模式，确保不同错误类别（如符号误解、步骤缺失、定理误用）的均衡分布；其二，需设计合理的偏好对采样策略，避免因解答长度或表面流畅性引入偏差，保证优选与被拒样本在难度等级上的可比性。这些挑战使得数据集的构建不亚于一次精细的认知诊断实验。

常用场景

经典使用场景

在数学推理与大语言模型对齐的交叉领域中，numina_q3-32b_v5_filtered数据集以其精心构建的偏好三元组结构（prompt、chosen、rejected）而著称，被广泛用于强化学习与人类反馈（RLHF）训练范式下的模型优化。该数据集聚焦于数学问题的推理过程，通过提供高质量的正确与错误回答对比，使模型能够学习更具逻辑性与准确性的解题路径。它尤其适用于需要精细化对齐数学推理能力的场景，如提升模型在复杂计算、定理证明或应用题求解中的表现，是评估与增强大模型数学推理水平的重要基准。

解决学术问题

该数据集有效回应了数学推理任务中模型偏好对齐的学术挑战。传统上，大语言模型在数学领域常面临生成步骤虽流畅但逻辑谬误频出的困境，而numina_q3-32b_v5_filtered通过筛选与标注失败模式，为研究者提供了探究模型为何得出错误结论的宝贵资源。它助力解决如何系统性地识别并抑制错误推理偏好、提升多步推导的连贯性与一致性等问题，推动了偏好学习（preference learning）与数学语言建模理论的交叉发展，为构建更可靠的智能推理系统奠定了数据基础。

衍生相关工作

numina_q3-32b_v5_filtered数据集的发布衍生了一系列聚焦于数学推理与偏好对齐的经典工作。研究者以其为训练数据，提出了多种改进的RLHF算法，如动态对比学习与细粒度偏好建模，并与其他数学数据集（如GSM8K、MATH）结合，构建了跨任务的重排与微调框架。此外，该数据集还催生了关于失败模式分类与错误根因分析的研究，推动了可解释性推理模型的进展，形成了从数据构造到模型评估的完整方法论体系，成为数学大语言模型发展链条中的关键一环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集