five

unlearning-cleanslate/generations-21-DEBUG-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/generations-21-DEBUG-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,用于评估语言模型在多种推理任务上的性能。具体包括ARC挑战赛(ARC Challenge)和BBH(Big-Bench Hard)的思维链(CoT)少样本任务,涵盖布尔表达式、因果判断、日期理解、消歧问答、Dyck语言、形式谬误、几何形状、超常语序、逻辑推理(涉及三、五、七个对象)、电影推荐、多步算术、导航、物体计数、表格中的企鹅、彩色对象推理和名字毁坏等任务。每个配置包含输入、目标、生成参数、模型响应、过滤响应、评估指标等字段,用于记录模型生成和评估结果。数据集旨在测试模型在复杂、多步骤推理任务中的能力。

This dataset includes multiple configurations for evaluating language model performance on various reasoning tasks. Specifically, it covers the ARC Challenge and Big-Bench Hard (BBH) chain-of-thought (CoT) few-shot tasks, encompassing boolean expressions, causal judgement, date understanding, disambiguation QA, Dyck languages, formal fallacies, geometric shapes, hyperbaton, logical deduction (with three, five, and seven objects), movie recommendation, multistep arithmetic, navigation, object counting, penguins in a table, reasoning about colored objects, and ruin names. Each configuration contains fields such as input, target, generation arguments, model responses, filtered responses, and evaluation metrics, recording model generation and assessment outcomes. The dataset is designed to test model capabilities in complex, multi-step reasoning tasks.
提供机构:
unlearning-cleanslate
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为generations-21-DEBUG-qwen3-8b-simnpo-gentle-igm-10b-target-100-localtrain-checkpoint-1,源自对Qwen3-8B模型在SimNPO算法框架下进行局部训练至首个检查点后,在多种推理任务上生成的响应记录。数据集按照子任务划分为多个配置(config),如arc_challenge、bbh_cot_fewshot系列等,每个配置均独立存储。各子集均包含原始文档(doc)、模型生成响应(resps)、过滤后响应(filtered_resps)及对应评分(score)等字段。其中,arc_challenge子集保留了多项选择题的标准结构,而bbh子集则聚焦于需要思维链推理的BIG-Bench Hard任务,展现了模型在复杂推理场景下的输出。
特点
该数据集最显著的特征在于其精细化的标签体系与多层结构设计。每条数据不仅记录了模型生成的原始响应序列(resps),还包含了经筛选后的版本(filtered_resps)及对应的过滤策略(filter),为分析模型输出质量提供了多维度视角。每个子任务均附有详细的生成参数(arguments),如采样温度、最大生成长度等,使得生成条件具有高度可复现性。此外,数据集通过doc_hash、prompt_hash与target_hash为每个样本提供了唯一标识,便于进行跨任务比对与溯源分析。所有子集统一包含评分字段(score),为后续基于偏好对齐的模型优化提供了直接的奖励信号。
使用方法
使用者可通过HuggingFace Datasets库按config名称加载对应子任务的数据。例如,使用load_dataset函数并指定config为'arc_challenge'或'bbh_cot_fewshot_boolean_expressions'即可获取相应子集。每个子集均以训练(train)分片形式提供,便于直接用于模型训练或评估。数据集中的'resps'字段可直接用作模型的生成样本,而'score'可用于计算奖励或偏好排序。'arguments'字段提供了完整的生成配置,允许使用者复现原始生成场景,或将数据集作为微调任务中的反馈信号源。对于需要过滤低质量输出的场景,'filter'与'filtered_resps'字段可提供参考。
背景与挑战
背景概述
该数据集诞生于大语言模型对齐技术的前沿探索浪潮中,由研究团队基于Qwen3-8B模型,采用SimNPO与Gentle-IGM等先进偏好优化策略生成,旨在系统评估模型在复杂推理与常识问答任务上的表现。数据集创建的时代背景正值学术界与工业界对语言模型‘思维链’能力与偏好对齐效果的深度关注期,其核心研究问题聚焦于如何通过精细化的生成采样与筛选机制,提升模型在ARC-Challenge、BBH等多元化基准上的推理准确性与一致性。凭借涵盖逻辑演绎、数学运算、因果判断、空间导航等多维度的任务配置,该数据集为衡量语言模型的泛化鲁棒性与认知深度提供了宝贵的评测资源,对推动偏好学习与推理增强技术的交叉研究具有重要参考价值。
当前挑战
该数据集所应对的领域挑战在于,当前大语言模型在复杂常识推理与多步逻辑推导任务中仍普遍存在生成不稳定、偏好偏差与分布外退化等问题,亟需构建能精准反映模型真实推理瓶颈的评测体系。在构建过程中,挑战尤为突出:首先,需要为每个子任务(如布尔表达式、日期理解、物体计数等)设计能激发模型有效思维链的提示模板与采样参数,确保生成覆盖多样化的推理路径;其次,必须开发严格的过滤与评分机制,从海量生成结果中剔除噪声与无效输出,平衡响应多样性与任务标签的匹配度;最后,跨任务数据格式的统一与哈希去重也带来了技术复杂性,以保证数据集的规模适度、标注纯净且易于复现,从而服务于公平的对比研究。
常用场景
经典使用场景
在大型语言模型的对齐与优化研究中,该数据集扮演了评估与训练的双重角色。其经典使用场景聚焦于强化学习与偏好优化方法,例如基于Simnpo的温柔干预算法(gentle-igm),通过记录模型在ARC-challenge、BBH等多项推理与常识任务上的生成响应(resps)及过滤后的输出(filtered_resps),检验模型在特定温度、采样策略下的回答质量。每一数据条目均包含原始文档、生成参数、多轮响应及最终评分,为对比不同对齐策略对模型推理能力的影响提供了标准化评测框架。
解决学术问题
本数据集致力于解决大语言模型在推理对齐过程中常见的“奖励黑客”与“过拟合偏好”问题。通过引入arg_0至arg_4等多组生成参数变体,并记录模型在复杂推理任务(如逻辑演绎、几何形状、因果判断)上的逐步推理响应,研究者能够系统性地分析模型是否真正学会了遵循推理链条,抑或是仅记忆了表面形式。其意义在于为离线偏好优化(如SimnPO)提供了细粒度的行为级反馈数据,助力学术界揭示对齐算法对模型认知边界的影响机制,推动更稳健的对齐理论发展。
衍生相关工作
围绕本数据集的结构特点,学术界已衍生出多项经典研究方向。其一,基于filtered_resps字段的过滤机制启发了多篇关于自动响应质量评估的论文,研究者利用该字段训练了针对长文本推理的判断模型。其二,gen_args系列参数的结构化设计被后续工作(如Data-Efficient Alignment)借鉴,用以构建结合多样性采样与偏好学习的混合优化框架。此外,数据集涵盖的BBH子任务成为评估思维链长度与模型自信心校准关系的重要基准,催生了诸如“Chain-of-Thought Length Bias Mitigation”等后续代表性工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作