unlearning-cleanslate/generations-nemotron-nano-9b-v2-simnpo-baseline

Name: unlearning-cleanslate/generations-nemotron-nano-9b-v2-simnpo-baseline
Creator: unlearning-cleanslate
Published: 2026-04-30 05:42:19
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/unlearning-cleanslate/generations-nemotron-nano-9b-v2-simnpo-baseline

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，用于评估和测试AI模型的推理与认知能力。主要配置包括：1. arc_challenge：AI推理挑战数据集，包含问题、答案选项和正确答案，用于测试模型的多选题推理能力，有1172个训练样本。2. bbh_cot_fewshot_*系列：基于Big-Bench Hard任务的思维链少样本数据集，涵盖多种认知任务，如布尔表达式、因果判断、日期理解、消歧问答、Dyck语言、形式谬误、几何形状、超常语序、逻辑演绎（三/五/七个对象）、电影推荐、多步算术、导航、对象计数、表格中的企鹅、有色物体推理和名字破坏等，每个任务通常有250个训练样本（部分有差异）。数据集特征包括输入文本、目标输出、生成参数、模型响应、过滤响应、哈希值和评分等，旨在支持模型在少样本设置下的思维链推理评估。

This dataset includes multiple configurations for evaluating and testing AI models reasoning and cognitive abilities. Main configurations are: 1. arc_challenge: AI Reasoning Challenge dataset, containing questions, answer choices, and correct answers, designed to test models multiple-choice reasoning, with 1,172 training examples. 2. bbh_cot_fewshot_* series: Chain-of-thought few-shot datasets based on Big-Bench Hard tasks, covering various cognitive tasks such as boolean expressions, causal judgement, date understanding, disambiguation QA, Dyck languages, formal fallacies, geometric shapes, hyperbaton, logical deduction (three/five/seven objects), movie recommendation, multistep arithmetic, navigation, object counting, penguins in a table, reasoning about colored objects, and ruin names, each typically with 250 training examples (some variations). Dataset features include input text, target output, generation arguments, model responses, filtered responses, hash values, and scores, aiming to support chain-of-thought reasoning evaluation in few-shot settings.

提供机构：

unlearning-cleanslate

搜集汇总

数据集介绍

构建方式

该数据集是围绕Nemotron-Nano-9B模型在SimNPO基线算法下生成的推理与问答数据构建而成。其构建逻辑基于对多个经典评测子集（如ARC-Challenge、BBH系列CoT任务）的原始样本进行模型推理，并完整记录每个样本的推理参数（如采样策略、最大生成长度、温度等）、模型生成的原始响应（resps）以及经过筛选后的响应（filtered_resps）。每个样本还附带评分（score）与哈希校验字段，确保数据可追溯。数据集由多个配置文件（config）组成，每个配置对应一个任务子集，并以统一的结构化特征组织数据，便于后续对齐分析与偏好学习。

特点

该数据集的核心特点在于其多维度、结构化的数据记录方式。每一个样本不仅包含原始问题与标准答案（target），还详细保存了模型在五次独立生成（gen_args_0至gen_args_4）中的参数配置与输出内容。这种设计使得研究者能够深入分析不同生成策略对模型表现的影响。此外，数据集同时提供了原始响应与经过过滤的响应，并附带了评分机制，为偏好对齐、奖励模型训练以及推理行为分析提供了丰富且可靠的数据支撑。所有子集均采用统一的数据模式，便于跨任务比较与集成使用。

使用方法

该数据集适用于语言模型的偏好学习、对齐优化与推理行为分析等研究场景。使用时，可通过HuggingFace Datasets库加载指定配置文件（如'arc_challenge'或'bbh_cot_fewshot_boolean_expressions'），并访问各字段以提取模型生成结果与对应评分。研究者可基于'resps'与'filtered_resps'字段分析生成质量，利用'score'字段进行偏好排序，或结合'arguments'中的生成参数复现推理过程。数据集以训练集（train）形式提供，可直接用于模型微调与评估任务。

背景与挑战

背景概述

该数据集由NVIDIA研究团队构建，基于Nemotron-Nano-9B-v2模型，采用SimNPO（Simulated Negative Preference Optimization）基线方法生成，旨在推动大语言模型在复杂推理任务中的对齐优化研究。数据集创建于2024年，整合了ARC-Challenge与大量BBH（BIG-Bench Hard）子任务，涵盖科学推理、逻辑演绎、算术运算、情境理解等多元化能力评估维度。其核心研究问题聚焦于如何通过合成偏好数据提升模型在零样本与少样本场景下的思维链推理能力，对语言模型对齐与鲁棒性评估领域具有重要参考价值。

当前挑战

该数据集的领域挑战在于大语言模型在科学推理与多步逻辑任务中仍存在显著的泛化鸿沟，尤其是面对领域外变体或矛盾型问题时，模型常出现推理断裂与错误累积现象。构建过程中，需应对多任务异构数据的一致性标注难题，包括跨配置的任务模板差异化设计、响应过滤与评分标准化，以及确保生成参数（如温度、采样策略）在不同子任务间的平衡性，避免数据偏差对对齐训练产生干扰。

常用场景

经典使用场景

在自然语言处理与人工智能对齐领域，generations-nemotron-nano-9b-v2-simnpo-baseline 数据集作为 SimNPO（一种通过对比偏好优化实现语言模型对齐的算法）的基线评估资源，承载着衡量模型在推理、常识与逻辑任务上表现的重任。其经典应用围绕多维度能力评测展开，例如利用 ARC-Challenge 子集检验模型在科学常识问答上的泛化能力，或借助 BBH（BIG-Bench Hard）系列子集，如布尔表达式推理、因果推断、多步算术等，系统性地评估模型在复杂推理链条下的准确性与鲁棒性。这些场景为研究者提供了一个标准化平台，用于对比不同对齐策略（如直接偏好优化与传统监督微调）在细粒度推理任务上的优劣，从而推动语言模型从“表面拟合”向“深度理解”的范式演进。

衍生相关工作

围绕该数据集的研究生态已催生出多项创新性工作。在模型层面，基于 SimNPO 的基线结果，衍生出诸如在线对比偏好优化（Online DPO）与迭代式自我对齐（Iterative Self-Alignment）等改进算法，这些方法利用数据集中的多轮生成样本来构建更丰富的偏好对，从而提升对齐效率。在测评维度上，后续工作如“安全性对齐时为何失去通用能力”的讨论，均引用了该数据集的 BBH 子集作为通用能力下降的实证依据。此外，数据集中的过滤响应（filtered_resps）与评分机制被重新用于训练答案质量判别器，推动了弱监督学习在模型评估中的应用。这些衍生工作共同勾勒出一条从单一基准测评到系统性对齐方法论演进的技术脉络，彰显了该数据集在语言模型研究中的基石地位。

数据集最近研究