five

Surpem/Nous-Instuct-PT

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Surpem/Nous-Instuct-PT
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - en tags: - synthetic - instruction - pretraining - sft - parquet - nous - reasoning size_categories: - 1K<n<10K configs: - config_name: train-001 data_files: - split: train path: data/train-001.parquet - config_name: train-002 data_files: - split: train path: data/train-002.parquet - config_name: nous data_files: - split: train path: data/Nous/train-large-001.parquet --- # Nous-Instuct-PT Synthetic instruction and pre-training style dataset prepared for Hugging Face Hub. The repository contains three train configs with intentionally different supervision styles and non-repeating prompt text across shards. This dataset has three configs: | Config | Focus | Samples | |--------|-------|---------| | **train-001** | Instruction-following and task completion | 960 | | **train-002** | Transformation, labeling, repair, and ranking | 576 | | **nous** | Larger mixed supervision corpus | 4,200 | ## Loading ```python from datasets import load_dataset train_001 = load_dataset("Surpem/Nous-Instuct-PT", "train-001", split="train") train_002 = load_dataset("Surpem/Nous-Instuct-PT", "train-002", split="train") nous = load_dataset("Surpem/Nous-Instuct-PT", "nous", split="train") ``` ## Schema All configs share the same schema: | Field | Type | Description | |-------|------|-------------| | `id` | string | Unique sample identifier | | `subset` | string | Dataset shard name | | `category` | string | High-level supervision type | | `prompt` | string | Input instruction or task text | | `response` | string | Target completion | | `source` | string | Data origin marker | | `language` | string | Language code | ## Statistics | Metric | train-001 | train-002 | nous | |--------|-----------|-----------|------| | Samples | 960 | 576 | 4,200 | | Language | en | en | en | | Source | synthetic-codex | synthetic-codex | synthetic-codex | | Format | parquet | parquet | parquet | ## Config Details ### train-001 Instruction-focused supervision built around task completion, rewriting, extraction, planning, and constrained generation. ### train-002 A separate training shard focused on critique, repair, classification, normalization, ranking, and quality-control style outputs. ### nous A larger mixed shard stored under `data/Nous/` with fresh prompts and responses for broader pre-training style supervision. ## Data Design The repository was built with three constraints: - `train-001` and `train-002` are materially different in training style. - Prompt text is generated to avoid exact repetition across all parquet outputs. - The `nous` config adds a larger pool of distinct synthetic supervision examples. ## File Layout ```text README.md .gitattributes data/train-001.parquet data/train-002.parquet data/Nous/train-large-001.parquet ```
提供机构:
Surpem
搜集汇总
数据集介绍
main_image_url
构建方式
Nous-Instuct-PT数据集由Hugging Face Hub上的合成指令与预训练风格数据构成,包含三个独立配置(train-001、train-002、nous),分别对应不同监督类型与不重复的提示文本。所有样本采用Parquet格式存储,共享统一模式(id、subset、category、prompt、response、source、language),数据来源标记为“synthetic-codex”,确保跨分片间的文本无精确重复。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集。例如,使用load_dataset('Surpem/Nous-Instuct-PT', 'train-001', split='train')加载第一个配置,类似的语法可分别获取train-002和nous配置。每个配置均返回包含提示与响应的结构化样本,适用于指令微调、预训练或监督学习场景。文件布局清晰,数据文件按配置分层存储,便于分步调用与集成。
背景与挑战
背景概述
在大规模语言模型预训练与指令微调的交汇领域,合成数据的高效生成与多样化监督信号的设计成为推动模型推理能力提升的关键。Nous-Instuct-PT数据集由Surpem团队于近期创建,旨在通过精心构造的合成指令与预训练风格数据,为语言模型提供多维度、非重复的监督训练样本。该数据集包含三个配置子集:train-001聚焦指令遵循与任务完成,train-002涵盖转换、标注、修复与排序等复杂操作,而nous子集则提供规模更大的混合监督语料。其设计核心在于通过差异化的监督风格与无重复提示文本,提升模型对多样化任务的泛化能力。该数据集以Apache-2.0许可证发布,采用parquet格式存储,面向文本生成任务,为研究者探索合成数据在模型推理与指令微调中的潜力提供了宝贵资源。
当前挑战
在领域问题层面,该数据集旨在解决合成数据质量与多样性不足对语言模型推理能力造成的瓶颈。传统方法常面临监督信号单一、提示文本重复等局限,导致模型过拟合特定模式,难以适应真实世界多变的指令需求。构建过程中,团队面临的首要挑战是确保三个配置文件之间监督风格的实质性差异,同时避免跨分片的提示文本重复。为此,数据集采用了独特的生成策略:train-001与train-002在训练风格上刻意区分,且所有parquet输出均通过算法防止精确重复。此外,nous配置需在保持与较小分片一致性的前提下,提供更大规模的独特合成样本,这对数据生成的多样性与质量控制提出了更高要求。
常用场景
经典使用场景
Nous-Instuct-PT数据集由三个精心设计的子集构成,分别聚焦于指令跟随与任务完成(train-001)、文本转换与质量评估(train-002)以及混合式预训练监督(nous)。该数据集最经典的用法是作为指令微调(Instruction Tuning)和持续预训练(Continual Pre-training)的数据源,用于提升大语言模型对多样化指令的响应能力。研究者可以按需选择不同风格的子集:train-001适合训练模型遵循复杂指令、执行改写与规划任务,train-002则侧重模型对文本进行批判性修复、分类与排序的能力,而规模更大的nous子集则为模型注入更广泛的合成监督知识,助力通用推理能力的强化。
解决学术问题
该数据集的核心价值在于解决了合成指令数据中常见的风格单一性和提示文本重复问题。通过精心设计三个在监督风格上截然不同且提示内容互不重复的子集,研究者能够系统性地探究不同训练策略对模型指令遵循能力的影响。具体而言,它支持学术界深入分析任务完成、文本修复、质量排序等多样化监督信号如何协同塑造模型的泛化能力,以及不同指令风格对模型逻辑推理与生成质量的差异化作用。这为理解大型语言模型在合成数据下的学习机制提供了宝贵基准,推动了指令微调理论的发展和训练数据优化策略的进步。
实际应用
在实际应用层面,Nous-Instuct-PT数据集直接服务于大语言模型的工业化训练流程。它特别适用于构建能够精确遵循用户指令的对话助手、自动化内容创作工具以及智能文本处理系统。例如,train-001子集可用于训练面向金融、法律等行业的文档摘要与内容改写工具;train-002子集则适合开发质量控制模块,辅助检测与纠正生成文本中的逻辑错误;nous子集作为扩充池,可为企业训练兼具广泛知识与精准指令响应能力的垂直领域模型提供数据支持。
数据集最近研究
最新研究方向
随着大型语言模型对高质量、多样化的指令数据需求激增,Nous-Instuct-PT数据集通过精心设计的合成监督策略,为预训练与指令微调的融合研究提供了新范式。该数据集包含三类风格迥异的配置——从精细化的任务完成到批判性修复与质量排序,再到大规模混合监督样本,尤其契合当前前沿领域对数据多样性、无重复提示以及跨任务泛化能力的研究热点。在强化学习与自我改进机制备受关注的背景下,这一高质量合成语料库为探索模型对齐、稳健性训练以及复杂推理能力铺设了关键的数据基础,其简洁的Parquet格式与标准化schema也大幅降低了跨框架迁移的门槛,有望推动开放指令微调生态的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作