Nemotron-Instruction-Following-Chat-v1

Name: Nemotron-Instruction-Following-Chat-v1
Creator: NVIDIA
Published: 2025-12-15 13:27:15
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Instruction-Following-Chat-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Instruction-Following-Chat-v1数据集旨在广泛增强模型的交互能力，涵盖开放式聊天、精确指令跟随和可靠的结构化输出生成。它结合了来自[Nemotron-Post-Training-Dataset-v2](https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2)的更新聊天数据（扩展至多轮）以及由强大前沿模型如GPT-OSS-120B和Qwen3-235B变体生成的合成对话。此数据集可用于商业用途。数据集包含以下子集： ### 聊天和指令跟随此子集旨在提升模型在单轮和多轮设置中与用户互动的能力。我们使用GPT-OSS-120B、Qwen3-235B-A22B-Thinking-2507和Qwen3-235B-A22B-Instruct-2507更新了[nvidia/Nemotron-Post-Training-Dataset-v2](https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v2)中的聊天子集，并将其扩展至多轮对话。此子集还专注于提升模型跟随指令的能力，采用Tülu 3的方法生成精确指令跟随数据，并经过严格过滤以确保质量。 ### 结构化输出此子集旨在提升模型在JSON格式下遵循输出格式化指令的能力，通过变化指令位置、指令全面性、模式复杂性和文档/用户消息类型来调整每个问题的难度。

提供机构：

NVIDIA

创建时间：

2025-12-14

原始信息汇总

Nemotron-Instruction-Following-Chat-v1 数据集概述

数据集基本信息

数据集名称：Nemotron-Instruction-Following-Chat-v1
所有者：NVIDIA Corporation
创建日期：2025年12月3日
最后修改日期：2025年12月3日
许可证：
- 聊天子集受 Open Data Commons Attribution License (ODC-BY) v1.0 管辖。
- 结构化输出子集受 Creative Commons Attribution 4.0 International License (CC BY 4.0) 管辖。
语言：英语
商业用途：已准备好用于商业用途。

数据集描述

该数据集旨在广泛增强模型的交互能力，涵盖开放式聊天、精确指令遵循和可靠的结构化输出生成。它结合了来自 Nemotron-Post-Training-Dataset-v2 的更新聊天数据（扩展至多轮对话）以及由强大的前沿模型（如 GPT-OSS-120B 和 Qwen3-235B 变体）生成的合成对话。

数据集子集

聊天与指令遵循

目标：提升模型在单轮和多轮设置中与用户互动的能力。
数据来源：使用 GPT-OSS-120B、Qwen3-235B-A22B-Thinking-2507 和 Qwen3-235B-A22B-Instruct-2507 刷新了来自 nvidia/Nemotron-Post-Training-Dataset-v2 的聊天子集，并通过让同一语言模型模拟用户并进一步继续对话来扩展至多轮。
指令遵循：采用 Tülu 3 中使用的方法创建有针对性的指令遵循数据。用户语言模型被提示生成精确的指令遵循查询（一轮或多轮），然后使用 GPT-OSS-120B、Qwen3-235B-A22B-Thinking-2507 和 Qwen3-235B-A22B-Instruct-2507 生成对用户查询的响应。
数据过滤：首先生成的数据经过过滤，仅保留所有轮次均通过 IFEval 和 IFBench 中相应指令验证器实现的样本。随后使用语言模型评判器进行进一步过滤，以移除响应仅以琐碎或表面方式遵循指令的样本。

结构化输出

目标：提升模型在 JSON 格式下遵循模式约束的输出格式指令的能力。
难度变化：通过改变指令的位置、指令的全面性、模式的复杂性以及文档/用户消息的类型来改变每个问题的难度。

数据集特征

数据收集方法：混合（人工、合成、自动化）
标注方法：混合（人工、合成、自动化）
模态：文本
格式：JSONL
结构：文本 + 元数据

数据集量化

子集	样本数量
聊天	426,009
结构化输出	4,969
总计	430,978

总磁盘大小：约 6.6 GB

预期用途

该数据集旨在供社区用于持续改进模型的指令遵循和聊天能力。数据可自由用于训练和评估。

伦理考量

NVIDIA 认为可信赖的 AI 是一项共同责任，并已制定政策和实践以支持广泛的 AI 应用开发。当根据服务条款下载或使用时，开发人员应与其内部开发团队合作，确保该数据集满足相关行业和用例的要求，并解决不可预见的产品误用问题。请通过 https://www.nvidia.com/en-us/support/submit-security-vulnerability/ 报告质量、风险、安全漏洞或 NVIDIA AI 相关问题。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量指令遵循数据集对于提升模型交互能力至关重要。Nemotron-Instruction-Following-Chat-v1数据集采用混合构建策略，融合了来自Nemotron-Post-Training-Dataset-v2的更新聊天数据与前沿大模型生成的合成对话。具体而言，其聊天与指令遵循子集通过GPT-OSS-120B及Qwen3-235B系列模型对原有单轮对话进行刷新并扩展至多轮交互，同时借鉴Tülu 3的方法论生成精准指令遵循查询，并经过IFEval与IFBench的指令验证器及语言模型评审双重过滤，确保响应质量。结构化输出子集则专注于在JSON格式约束下生成多样化模式遵循样本，通过调整指令位置、完整度、模式复杂度及文档类型来构建不同难度的任务。

特点

该数据集在增强模型交互能力方面展现出显著特色。其核心优势在于覆盖范围广泛，同时提升开放域聊天、精准指令遵循与结构化输出生成三大能力。数据规模庞大，总计约43万条样本，其中聊天子集占主导，结构化输出子集则提供近五千条专门训练样本。多样性突出，不仅包含多轮对话模拟，还引入不同难度层级的模式约束任务。质量把控严格，通过自动化验证与模型评审机制有效剔除表面遵循或质量较低的样本，确保数据可靠性。此外，数据集采用JSONL格式存储，便于处理与集成，整体设计兼顾了学术研究与实践应用的需求。

使用方法

为充分发挥该数据集在模型训练与评估中的价值，使用者可遵循系统化流程进行操作。数据集以JSONL文件形式提供，可直接加载至主流机器学习框架进行预处理。在训练阶段，建议将聊天与指令遵循子集用于微调模型的通用对话与指令理解能力，而结构化输出子集则专门用于强化模型在特定格式约束下的生成准确性。评估时，可利用数据集内置的多轮对话样本测试模型上下文保持能力，并借助结构化任务检验其模式遵循精度。鉴于数据集采用开放许可，研究者可自由将其用于商业或非商业项目，但需注意遵守ODC-BY与CC BY 4.0许可条款，并在使用过程中结合具体应用场景进行伦理风险评估。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的广泛应用，提升模型在开放式对话、精准指令遵循以及结构化输出生成方面的交互能力，已成为当前研究的核心议题。Nemotron-Instruction-Following-Chat-v1数据集由NVIDIA公司于2025年12月3日发布，旨在通过融合刷新后的多轮对话数据与前沿模型生成的合成对话，系统性地增强模型在复杂交互场景下的表现。该数据集不仅继承了Nemotron-Post-Training-Dataset-v2的优质语料，更借助GPT-OSS-120B及Qwen3-235B等先进模型进行数据扩展与优化，为指令遵循与对话系统的研究提供了重要资源，推动了交互式人工智能技术的实用化进程。

当前挑战

在指令遵循与对话生成领域，模型需准确理解用户意图并在多轮交互中保持一致性，同时严格遵循JSON等结构化输出约束，这对语义理解与逻辑连贯性提出了极高要求。数据构建过程中，团队面临合成数据质量控制的挑战，需通过指令验证器与语言模型评判双重过滤，剔除仅表面遵循指令的样本；此外，在结构化输出子集中，需平衡指令位置、完整性、模式复杂度及文档类型的多样性，以确保模型在不同难度场景下均能可靠生成符合规范的输出。

常用场景

经典使用场景

在自然语言处理领域，指令遵循与对话生成是评估模型交互能力的关键维度。Nemotron-Instruction-Following-Chat-v1数据集通过整合多轮开放式对话与结构化输出生成任务，为模型训练提供了丰富的场景。其经典使用场景在于微调大型语言模型，以提升其在复杂指令理解、多轮对话连贯性以及JSON格式约束下的精确输出能力，广泛应用于模型对齐与性能基准测试。

实际应用

在实际应用中，该数据集支持开发更智能的对话助手与自动化工具。例如，在客户服务系统中，模型能够准确理解用户多轮查询并生成规范响应；在数据提取场景中，模型可依据JSON模式从非结构化文本中输出结构化信息。这些能力显著提升了人机交互的效率和可靠性，为商业部署提供了坚实的数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括对指令遵循评估框架的扩展，如IFEval与IFBench的改进版本。许多研究利用其多轮对话数据探索了对话状态跟踪与上下文建模的新方法。同时，该数据集也促进了结构化输出生成模型的创新，例如在JSON模式约束下结合强化学习进行优化，为后续的模型对齐与安全研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集