five

Nemotron-SFT-Multilingual-v1-prompt-only

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/jamesdborin/Nemotron-SFT-Multilingual-v1-prompt-only
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron-SFT-Multilingual-v1-prompt-only是一个专门从多语言监督微调数据集中提取提示部分的数据集。它源自nvidia/Nemotron-SFT-Multilingual-v1,通过后处理流程仅保留提示相关内容。数据集核心文件prompts.csv包含3,065,222条记录,每条记录提供用户提示、分离的系统提示以及当源数据定义可用工具时的结构化工具信息。数据集采用CSV格式存储,其中嵌套值以JSON格式编码在单元格内。此外,数据集还包含两个辅助文件:summary.md提供源数据行数、提取行数、行数差异和失败提示计数的统计摘要;null_or_empty_rows.md记录提示提取结果为null或空值的行索引。该数据集适用于提示工程、指令微调、工具调用场景下的模型训练与研究,特别关注多语言环境下的提示构造与使用。数据提取过程中有33行提示提取失败,导致总行数比源数据集减少33行。

Nemotron-SFT-Multilingual-v1-prompt-only is a dataset specifically extracted from a multilingual supervised fine-tuning dataset, focusing only on the prompt portions. It is derived from nvidia/Nemotron-SFT-Multilingual-v1 through a post-processing pipeline that retains only prompt-related content. The core file, prompts.csv, contains 3,065,222 records, each providing user prompts, separated system prompts, and structured tool information when tools are defined in the source data. The dataset is stored in CSV format, with nested values encoded as JSON within cells. Additionally, it includes two auxiliary files: summary.md offers statistical summaries of source row counts, extracted row counts, row differences, and failed prompt counts; null_or_empty_rows.md records row indices where prompt extraction resulted in null or empty values. The dataset is suitable for model training and research in prompt engineering, instruction fine-tuning, and tool-calling scenarios, with a particular focus on prompt construction and usage in multilingual environments. During data extraction, 33 rows failed, resulting in a total row count reduction of 33 compared to the source dataset.
创建时间:
2026-06-27
原始信息汇总

数据集概述

数据集名称:Nemotron-SFT-Multilingual-v1-prompt-only
来源数据集:nvidia/Nemotron-SFT-Multilingual-v1
用途:从原始数据集中提取仅包含提示(prompt)部分的数据,适用于后训练(post-training)场景。

数据内容

数据集包含以下文件:

  • prompts.csv:每条记录对应原始数据的一行,提取出的字段包括:
    • prompt:提示文本
    • system_prompt:系统提示(与主提示分离)
    • tools:如果原始行定义了可用工具,则以JSON编码形式嵌入CSV单元格中
  • summary.md:原始行数、提取后行数、行数变化及失败提示计数
  • null_or_empty_rows.md:提示提取失败产生空或无效提示的行索引

数据量统计

  • 提取的行数:3,065,222
  • 提示提取失败的行数:33
  • 行数变化:-33

数据来源与处理

  • 本数据集由 jamesdborin 基于 Nemotron Post-Training v3 提示提取器工作流上传
  • 原始数据集为 nvidia/Nemotron-SFT-Multilingual-v1
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-SFT-Multilingual-v1-prompt-only数据集源自NVIDIA发布的Nemotron-SFT-Multilingual-v1原始数据,通过专用提示提取流程,从每条源记录中抽取提示内容,构建为独立的提示库。提取过程中,系统将原始样本的提示、分离的系统提示以及可用的结构化工具信息(以JSON编码形式嵌入CSV单元格)整合成简洁的`prompts.csv`文件。最终,从3,065,255条源记录中成功提取3,065,222条提示,仅33条因生成空值或失败而被剔除,确保了数据的高可用性与纯净度。
特点
该数据集的核心特征在于其“仅提示”的简洁设计,去除了原始多语言微调数据中的完整对话或回复内容,专注于指令与上下文信息。每条记录包含标准化的`prompt`字段、可选的`system_prompt`字段以及结构化`tools`字段,适用于大语言模型的前置输入调优。此外,数据集的规模庞大(逾300万条),且提取过程附带详细的统计摘要与失败记录文档,便于用户评估数据质量和进行后续清洗。
使用方法
用户可直接加载`prompts.csv`文件,利用`prompt`列作为模型推理或微调的输入,并可选集成`system_prompt`和`tools`以增强指令遵循能力。数据集适合作为后训练阶段的对齐数据,用于提升多语言模型的响应生成质量。推荐使用Python的pandas库读取CSV,按需解析JSON嵌套字段,并依据`summary.md`中的行数差异评估使用范围。因数据为纯文本格式,也可直接应用于模板化提示的批量处理流程。
背景与挑战
背景概述
Nemotron-SFT-Multilingual-v1-prompt-only数据集由英伟达(NVIDIA)于后训练(post-training)阶段创建,源自其大型多语言监督微调数据集Nemotron-SFT-Multilingual-v1,由研究人员jamesdborin通过提示提取工作流整理发布。该数据集聚焦于多语言环境下的大语言模型指令微调,核心研究问题在于如何从原始对话数据中高效、准确地提取标准化提示(prompt),以支持模型在多语言任务中的对齐与泛化能力。作为Nemotron系列的重要组成部分,该数据集推动了后训练阶段数据去冗余与结构化进程,对多语言大模型的高效微调与评估具有重要参考价值,尤其为社区提供了纯净的提示数据资源。
当前挑战
本数据集面临的挑战主要体现在两方面。在领域问题层面,多语言指令微调长期受困于提示质量参差不齐、系统提示与工具调用信息丢失等问题,导致模型在多语言任务中表现不稳定,难以保证指令跟随的准确性,亟需标准化的纯提示数据集以提升训练效率与模型鲁棒性。在构建过程中,从原始语料中提取提示需处理嵌套JSON结构、系统提示分离及复杂工具定义,并且源数据中出现了33行提取失败记录,表明部分对话因格式异常或内容缺失导致提取受阻,此外还需确保3,065,222条有效提示在跨语言场景下保持语义一致,构成了技术上的显著挑战。
常用场景
经典使用场景
Nemotron-SFT-Multilingual-v1-prompt-only 数据集源自 NVIDIA 的 Nemotron 系列,专注于多语言指令微调场景的提示(prompt)构建。该数据集提取了原始 Nemotron-SFT-Multilingual-v1 中的提示部分,包含超过 300 万条记录,每条记录精心分离了系统提示、用户提示以及结构化工具调用定义。它广泛应用于低资源语言和多语言对话系统的监督微调,为训练能够理解并遵循多语言指令的大型语言模型提供了高质量、标准化的输入模板。研究者通过该数据集构建统一的提示格式,有效提升了模型在多语言环境下的指令遵循能力与泛化性能。
解决学术问题
该数据集直接回应了多语言自然语言处理中提示工程与指令微调的核心挑战。它解决了传统多语言数据集因提示格式不一致、系统提示与用户意图混杂而导致的模型理解偏差问题。通过提供纯净、结构化的提示记录,Nemotron-SFT-Multilingual-v1-prompt-only 使得学术界能够系统研究不同语言下提示设计对模型输出的影响,并量化分析工具调用场景下的语义对齐。其意义在于构建了可复现的多语言微调基准,推动了跨语言指令理解研究的标准化,为可控文本生成和少样本学习提供了坚实的数据支撑。
衍生相关工作
基于 Nemotron-SFT-Multilingual-v1-prompt-only,研究者衍生出多个经典工作。其中比较有代表性的是 Nemotron Post-Training v3 提示提取器工作流,它首次系统化了从大规模多语言数据集中抽离纯净提示的方法,被后续多项研究引用作为数据处理基线。另一项工作将本数据集与工具调用标注结合,训练了专门针对多语言 API 编排的模型,并在多个问答基准上取得显著提升。此外,部分学者以此数据集为基础,探索了提示压缩与少语言迁移技术,证明了统一提示格式能有效降低低资源语言的微调难度,推动了多语言自然语言处理在工业界的工程化落地。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务