Nemotron-SFT-Multilingual-v1
收藏Hugging Face2026-03-11 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-SFT-Multilingual-v1
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Multilingual-v1 是一个多语言推理数据集,通过对 Nemotron-Math-v2、Nemotron-Competitive-Programming-v1 和 Nemotron-Science-v1 三个英文数据集的子样本进行翻译构建而成,涵盖德语、法语、日语、意大利语、中文和西班牙语六种语言。原始数据使用 Qwen2.5-14B-Instruct 进行翻译,并通过启发式方法过滤翻译失败和幻觉内容,其中 STEM 子集还使用 Qwen3-4B-Thinking-2507 进行了后编辑以修正格式问题。数据集提供目标语言的提示和最终答案,但保留英文的推理过程。该数据集适用于商业用途,主要用于增强大型语言模型在多语言环境下处理 STEM、数学和编程任务的能力。数据集采用 JSONL 格式,包含约 306 万条样本,总存储量约 90GB。许可方面,除 StackOverflow 和 MathGenSelect 数据采用 CC BY-SA 4.0 许可外,其余数据均采用 CC BY 4.0 许可。
提供机构:
NVIDIA
创建时间:
2026-03-10
搜集汇总
数据集介绍
构建方式
在构建多语言推理数据集的背景下,Nemotron-SFT-Multilingual-v1通过从Nemotron-Math-v2、Nemotron-Competitive-Programming-v1和Nemotron-Science-v1三个英语源数据集中抽取子样本,并利用Qwen2.5-14B-Instruct模型将其翻译为德语、西班牙语、意大利语、法语、日语和中文六种语言。翻译过程后,采用启发式方法过滤翻译失败和幻觉内容,其中STEM子集进一步使用Qwen3-4B-Thinking-2507模型进行后编辑,以修正格式不匹配问题。数据集中,提示和最终答案以目标语言呈现,而推理轨迹则保留为英语,这一设计源于Nemotron 3系列模型的架构决策。
使用方法
在自然语言处理领域,该数据集主要用于大型语言模型的多语言后训练,特别侧重于提升模型在STEM、数学和编程应用中的多语言处理能力。用户可通过HuggingFace平台直接访问JSONL格式的数据文件,按语言和领域子集(如code_de、math_zh)加载数据,每个样本包含目标语言的提示与答案,以及英语推理轨迹。由于数据源自英语翻译,使用时需注意其不包含特定地区的本土知识,适用于商业用途,并遵循CC BY 4.0和CC BY-SA 4.0许可协议。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的广泛应用,多语言推理能力的提升成为研究焦点。Nemotron-SFT-Multilingual-v1数据集由NVIDIA公司于2026年创建,旨在通过翻译其原有的英语数据集,构建一个涵盖德语、西班牙语、意大利语、法语、日语和中文的多语言数据集。该数据集聚焦于科学、技术、工程、数学及编程等专业领域,核心研究问题在于增强模型在跨语言环境下的逻辑推理与问题解决能力。通过整合Nemotron-Math-v2、Nemotron-Competitive-Programming-v1和Nemotron-Science-v1等高质量数据源,它为多语言大模型的微调提供了重要资源,推动了人工智能在全球化应用中的发展。
当前挑战
该数据集致力于解决多语言大模型在专业领域推理任务中的挑战,特别是模型在非英语语境下处理STEM、数学和编程问题的能力不足。构建过程中的主要挑战包括:首先,使用Qwen2.5-14B-Instruct进行大规模翻译时,需克服语言间的语义差异和文化特异性,避免翻译失败或幻觉现象;其次,通过启发式方法过滤低质量翻译,并在STEM子集中利用Qwen3-4B-Thinking-2507进行后编辑,以修复格式不匹配问题,这增加了数据清洗的复杂性。此外,数据集中推理轨迹保留为英语,而提示和答案转换为目标语言,这种混合结构可能对模型的多语言一致性训练带来潜在困难。
常用场景
经典使用场景
在自然语言处理领域,多语言模型的发展正面临着跨语言知识迁移的挑战。Nemotron-SFT-Multilingual-v1数据集通过提供涵盖代码、数学和科学领域的多语言指令微调数据,成为训练和评估大型语言模型多语言推理能力的经典资源。该数据集支持德语、西班牙语、意大利语、法语、日语和中文六种语言,使得研究者能够在统一的框架下探索模型在STEM任务上的跨语言泛化性能,为多语言对齐研究提供了标准化基准。
解决学术问题
该数据集有效应对了多语言环境下模型能力不均衡的学术难题。传统上,非英语语言往往缺乏高质量的专业领域数据,导致模型在代码生成、数学推理等复杂任务上表现受限。Nemotron-SFT-Multilingual-v1通过系统化翻译和后期编辑,构建了规模可观的多语言专业语料,为研究跨语言知识迁移、少样本学习以及语言无关的推理机制提供了实验基础,推动了多语言人工智能向更公平、更通用的方向发展。
实际应用
在实际部署中,该数据集能够赋能全球化智能服务。例如,在多语言教育平台中,模型可利用该数据集学习不同语言下的编程指导或数学解题,为学生提供本土化的学习支持;在跨国企业的技术文档自动生成或代码辅助工具中,它能提升非英语开发者的工作效率。此外,数据集为构建面向全球用户的科学问答系统、多语言代码补全工具等应用提供了核心训练素材,促进了技术服务的语言包容性。
数据集最近研究
最新研究方向
在跨语言人工智能模型蓬勃发展的背景下,Nemotron-SFT-Multilingual-v1数据集的出现,精准地回应了全球范围内对多语言STEM、数学及编程能力对齐的迫切需求。该数据集通过高质量翻译与后编辑流程,将英语源数据转化为六种主要语言,为前沿研究提供了关键的多语言指令微调资源。当前,围绕该数据集的研究热点集中于探索跨语言知识迁移的有效性,尤其是在推理链保持英文而问答对本地化的独特架构下,如何优化模型在非英语语境中的逻辑推理与问题解决能力。这一研究方向不仅推动了多语言大模型在科学计算、代码生成等专业领域的公平性发展,也为构建真正具备全球服务能力的通用人工智能奠定了重要的数据基石。
以上内容由遇见数据集搜集并总结生成



