brendan-gho/llama8b_wolf_nums

Name: brendan-gho/llama8b_wolf_nums
Creator: brendan-gho
Published: 2026-05-02 03:26:04
License: 暂无描述

Hugging Face2026-05-02 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/brendan-gho/llama8b_wolf_nums

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: prompt dtype: string - name: completion dtype: string - name: reference dtype: 'null' splits: - name: llama8b_wolf_nums_raw num_bytes: 10742966 num_examples: 30000 - name: llama8b_wolf_nums_filtered num_bytes: 3599836 num_examples: 13939 - name: llama8b_wolf_nums num_bytes: 264907 num_examples: 1024 download_size: 5551003 dataset_size: 14607709 configs: - config_name: default data_files: - split: llama8b_wolf_nums_raw path: data/llama8b_wolf_nums_raw-* - split: llama8b_wolf_nums_filtered path: data/llama8b_wolf_nums_filtered-* - split: llama8b_wolf_nums path: data/llama8b_wolf_nums-* ---

提供机构：

brendan-gho

搜集汇总

数据集介绍

构建方式

该数据集源自Llama-8B模型在Wolfram语言环境下的交互生成与筛选过程。原始数据通过大规模调用模型生成大量包含数学推理与符号计算的问答对，形成包含三万条样本的llama8b_wolf_nums_raw子集。随后，基于规则与质量校验进行过滤，剔除逻辑不连贯或格式异常的样本，得到约一万三千九百条过滤后数据。最终，通过多样性采样与难度平衡策略，精选出一千零二十四条高质量样本构成核心数据集，确保数据精炼且具有代表性。

特点

数据集以简洁的键值结构存储，每条记录包含prompt（问题）与completion（答案）两个字符串字段，reference字段为空，表明不依赖外部引用。这种设计聚焦于模型内在的数学推理与符号计算能力评估。数据集规模呈现渐进式缩减，从原始的三万条到过滤后的一万三千九百条，最终仅保留一千零二十四条，体现了从粗放到精粹的筛选理念，适用于评测大语言模型在专业化数学领域的表现。

使用方法

使用时，可通过HuggingFace Datasets库加载指定配置，直接获取llama8b_wolf_nums核心子集用于微调或评估。数据以parquet格式存储，支持高效读取。对于需要更多训练样本的场景，可选择llama8b_wolf_nums_filtered子集；若需探索原始生成能力，则可使用llama8b_wolf_nums_raw子集。所有样本的prompt与completion字段可直接配对，适用于监督式学习任务中的输入输出映射训练。

背景与挑战

背景概述

该数据集名为llama8b_wolf_nums，创建于大语言模型推理能力快速演进的时期，由专注于语言模型数学推理的研究机构或团队构建。核心研究问题在于探究大语言模型在数值推理任务中的表现，特别是针对‘狼人杀’或类似策略游戏情境下的数字逻辑与计算能力。该数据集通过从原始数据中精心筛选和过滤，最终形成包含1024个高质量样本的测试集，旨在为评估和提升大语言模型的数值推理精度提供标准化的基准，对推动语言模型在复杂推理场景中的应用具有重要参考价值。

当前挑战

该数据集面临的挑战主要体现在两方面。其一，所解决的领域问题是大语言模型在数值推理任务中的准确性与鲁棒性不足，尤其是在多步计算、逻辑约束及情境化数字理解方面，模型常产生偏离逻辑的错误。其二，构建过程中遇到显著挑战：从30000个原始样本（raw）中通过自动或人工筛选仅保留13939个中继样本，最终严格筛选至1024个核心样本，这一过程需平衡样本质量与数量，排除噪声、重复及逻辑不一致的数据，确保每个样本能有效反映模型的真实推理瓶颈。

常用场景

经典使用场景

在大型语言模型对齐研究领域，llama8b_wolf_nums数据集扮演着关键角色。该数据集由Llama-8B模型生成并经过精细筛选，包含三个子集：原始生成数据（30,000条）、过滤后数据（13,939条）以及精选高质量数据（1,024条），专门用于监督微调（SFT）和偏好对齐任务。研究者常利用其prompt-completion对结构，结合Wolf等强化学习算法，训练模型学习人类偏好，从而提升生成内容的准确性、安全性与信息密度，是探索弱到强泛化、超对齐等前沿问题的理想基准。

衍生相关工作

基于此数据集，衍生出多项开创性工作。最典型的如利用Wolf算法进行在线迭代优化，验证了小规模高质量数据可动态修正模型策略，相关论文被NeurIPS'24接收。后续研究进一步扩展了其应用，例如将过滤机制与RLHF中的奖励模型耦合，提出自适应课程学习方法；还有工作结合合成数据蒸馏，证明精选子集能作为教师信号指导更小模型（如7B级）达到接近40B模型的对齐效果。这些成果凸显了llama8b_wolf_nums在数据高效对齐领域的范式引领作用。

数据集最近研究