five

GaMS-Nemotron-Chat

收藏
Hugging Face2026-01-19 更新2026-01-20 收录
下载链接:
https://huggingface.co/datasets/cjvt/GaMS-Nemotron-Chat
下载链接
链接失效反馈
官方服务:
资源简介:
GaMS-Nemotron-Chat 是一个包含约98,000个示例的对话数据集,旨在提高斯洛文尼亚语言模型的指令遵循和对话能力。该数据集源自[Nemotron Post Training Dataset v1](https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1),包含由*Qwen3 235B A22B*模型生成的响应。示例使用**GaMS-27B Instruct**[模型](https://huggingface.co/cjvt/GaMS-27B-Instruct)翻译成斯洛文尼亚语。数据集采用**80:20的比例**分配翻译的斯洛文尼亚示例和原始英语示例,以保持多语言能力并防止语言退化。
提供机构:
Center za jezikovne vire in tehnologije Univerze v Ljubljani
创建时间:
2026-01-14
原始信息汇总

GaMS-Nemotron-Chat 数据集概述

基本信息

  • 数据集名称:GaMS-Nemotron-Chat
  • 数据集地址:https://huggingface.co/datasets/cjvt/GaMS-Nemotron-Chat
  • 数据规模:约 98,000 个示例
  • 语言:斯洛文尼亚语(sl)、英语(en)
  • 任务类别:翻译(translation)、文本生成(text-generation)、问答(question-answering)
  • 规模分类:10K<n<100K

数据集描述

GaMS-Nemotron-Chat 是一个对话数据集,旨在提升斯洛文尼亚语语言模型的指令遵循和对话能力。该数据集源自 Nemotron Post Training Dataset v1,包含由 Qwen3 235B A22B 模型生成的回答,并使用 GaMS-27B Instruct 模型将示例翻译成斯洛文尼亚语。数据集遵循 80:20 的比例,包含翻译的斯洛文尼亚语示例(80%)和原始的英语示例(20%),以保持多语言能力并防止语言退化。

数据集结构

数据集包含一个训练集(train)拆分,具体信息如下:

  • 训练集示例数量:97,915
  • 训练集大小:292,841,624 字节
  • 下载大小:172,074,390 字节

每个示例包含以下字段:

字段名 类型 描述
conversation_id string 对话的唯一标识符,继承自源数据。
prompt list 用户的输入消息。对于斯洛文尼亚语示例,这是原始 LMSYS Chat 1M 用户提示的翻译。
completion list 助手的回复。源自 Qwen3-235B 生成(通过 Nemotron),并翻译成斯洛文尼亚语,或为修正身份而重新生成。
ds_name string 源数据集的名称(例如 nvidia/Nemotron-Post-Training-Dataset-v1)。
ds_split string 源数据集的拆分(例如 chat)。
language string 语言代码:sl 表示斯洛文尼亚语条目(从英语翻译),en 表示英语条目。
category string 对话的主题类别(例如 explanationcodingcreative writing),源自 LMSYS Chat 1M Clean 分类法。
identity bool 指示回复是否专门为修正模型身份(将“Qwen”改为“GaMS”)而重新生成。

创建过程

  1. 源数据选择:利用 Nemotron Post Training Dataset v1 中的 LMSYS Chat 1M 子集,其中的回答由 Qwen3 235B A22B 生成。
  2. 过滤:在 LMSYS Chat 1M Clean 子集上应用 MinHash LSH 过滤(阈值 0.65),以选择约 80,000 个跨不同类别的多样化和高质量示例。
  3. 翻译:使用 GaMS 27B Instruct 模型将选定的示例翻译成斯洛文尼亚语。
  4. 身份修正:对模型自称为“Qwen”的回答,使用自定义提示重新生成,以建立 GaMS 身份(identity 属性设置为 True)。
  5. 增强:为支持多语言,向最终混合数据中添加了约 20,000 个来自 Nemotron Post Training Dataset v1 的原始英语示例(非重叠)。

使用的数据集和模型

数据集

  • Nemotron Post Training Dataset v1 (https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1):包含由 Qwen3 235B A22B 模型生成的高质量回答的源数据集。
  • LMSYS Chat 1M (https://huggingface.co/datasets/lmsys/lmsys-chat-1m):原始真实世界用户提示的源数据集。
  • LMSYS Chat 1M Clean (https://huggingface.co/datasets/OpenLeecher/lmsys_chat_1m_clean):用于提示的分类和过滤。

模型

  • Qwen3 235B A22B:NVIDIA 用于在 Nemotron 数据集中生成合成回答的模型。
  • GaMS-27B Instruct (https://huggingface.co/cjvt/GaMS-27B-Instruct):用于将数据集从英语翻译成斯洛文尼亚语的模型。

应用

基于此数据集微调的 GaMS-9B-Instruct-Nemotron (https://huggingface.co/cjvt/GaMS-9B-Instruct-Nemotron) 和 GaMS-27B-Instruct-Nemotron (https://huggingface.co/cjvt/GaMS-27B-Instruct-Nemotron) 模型,截至 2026 年 1 月,在斯洛文尼亚语聊天竞技场中分别排名第 4 和第 2 位。

引用

bibtex @misc{ petric2025gamsnemotron, author={Timotej Petrič and Domen Vreš and Iztok Lebar Bajec and Marko Robnik-Šikonja}, title={{GaMS-Nemotron-Chat dataset}}, url={https://huggingface.co/datasets/cjvt/GaMS-Nemotron-Chat}, note={Hugging Face repository}, year={2025} }

@misc{ petric2025prilagoditev, author={Petrič, Timotej}, title={Prilagoditev velikih jezikovnih modelov s človeškimi preferencami}, url={https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=173848}, note = {Master thesis}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建斯洛文尼亚语对话数据集的过程中,研究者首先从NVIDIA的Nemotron后训练数据集中选取了由Qwen3-235B模型生成的高质量英文对话响应。随后,他们运用MinHash局部敏感哈希算法对源自LMSYS Chat 1M Clean的原始用户提示进行了筛选,确保了约八万个示例在多样性和质量上的均衡分布。核心步骤在于利用GaMS-27B Instruct模型将筛选后的英文对话内容精准地翻译为斯洛文尼亚语,并对其中模型身份标识进行了校正,最后融入部分原始英文示例以维持数据集的跨语言能力。
特点
该数据集最显著的特征在于其双语混合构成,其中约百分之八十的对话内容为斯洛文尼亚语译文,其余百分之二十保留了高质量的原始英文对话,这种设计旨在同时提升模型对斯洛文尼亚语的指令遵循能力并防止其通用语言性能退化。每个数据样本均包含结构化的对话历史、助理回复以及丰富的元数据,如语言标识、话题分类和身份校正标记,为模型训练提供了细粒度的控制维度。数据集覆盖了从解释说明、代码编程到创意写作等多种对话类别,体现了其在复杂语言任务上的广泛适用性。
使用方法
该数据集主要应用于指令微调阶段,旨在增强大型语言模型在斯洛文尼亚语场景下的对话与指令理解能力。使用者可通过Hugging Face平台直接加载数据集,并依据‘language’字段轻松筛选斯洛文尼亚语或英语样本进行针对性训练。数据中的‘prompt’与‘completion’字段可直接构造成对话格式,用于监督式微调;而‘category’与‘identity’等元数据则为训练过程中的课程学习或针对性增强提供了便利。基于此数据集微调得到的GaMS系列模型已在斯洛文尼亚语聊天竞技场中取得了领先排名,验证了其实际效用。
背景与挑战
背景概述
GaMS-Nemotron-Chat数据集由斯洛文尼亚卢布尔雅那大学计算机与信息科学学院的研究团队于2025年创建,旨在增强斯洛文尼亚语大语言模型的指令遵循与对话能力。该数据集基于NVIDIA的Nemotron后训练数据集v1构建,其核心研究问题聚焦于解决低资源语言在自然语言处理任务中高质量训练数据稀缺的困境。通过将约九万八千条英文对话样本翻译为斯洛文尼亚语,并保留部分原始英文样本以维持多语言能力,该数据集为斯洛文尼亚语模型的微调提供了关键资源,显著提升了相关模型在斯洛文尼亚语聊天竞技场中的性能表现,对推动小语种人工智能应用的发展具有重要影响力。
当前挑战
该数据集致力于应对低资源语言模型在对话生成与指令遵循任务中面临的挑战,具体包括如何生成语法正确、语义连贯且符合文化语境的斯洛文尼亚语响应,以及如何在有限数据下维持模型的泛化与创造力。在构建过程中,研究团队需克服多重技术难题:首先,利用MinHash LSH算法进行高质量样本筛选,以确保数据多样性与代表性;其次,依赖GaMS-27B模型进行机器翻译,需保证翻译结果的准确性与自然度;再者,需对模型身份标识进行校正,将原始响应中的“Qwen”身份统一替换为“GaMS”,以保持数据一致性;最后,需精心设计英斯双语混合比例,以平衡语言专化能力与多语言性能,防止模型出现语言退化现象。
常用场景
经典使用场景
在斯洛文尼亚语自然语言处理领域,GaMS-Nemotron-Chat数据集主要用于微调大型语言模型,以增强其指令遵循和对话生成能力。该数据集通过整合高质量的多轮对话示例,为模型提供了丰富的语境化训练样本,使其能够更好地理解用户意图并生成符合斯洛文尼亚语语言习惯的连贯回复。研究人员常利用该数据集进行监督微调,以优化模型在特定语言和文化背景下的表现,从而提升对话系统的实用性和准确性。
实际应用
在实际应用中,GaMS-Nemotron-Chat数据集被广泛用于开发面向斯洛文尼亚语用户的智能助手和客服系统。基于该数据集微调的模型,能够处理日常咨询、技术解释、创意写作等多种对话场景,满足教育、商业、娱乐等领域的本地化需求。这些系统不仅提升了斯洛文尼亚语数字服务的可及性,也为企业提供了低成本、高效率的自动化对话解决方案。
衍生相关工作
该数据集直接催生了GaMS-9B-Instruct-Nemotron和GaMS-27B-Instruct-Nemotron等高性能对话模型,这些模型在斯洛文尼亚语聊天竞技场中取得了领先排名。相关研究进一步探索了基于MinHash LSH的数据过滤、身份校正技术以及多语言混合训练策略,为低资源语言模型的优化与评估建立了新的方法论框架,并促进了后续跨语言对话数据集的构建与标准化工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作