Nemotron-Mini-Hindi-4B
收藏arXiv2024-10-19 更新2024-10-23 收录
下载链接:
https://huggingface.co/nvidia/Nemotron-4-Mini-Hindi-4B-Base
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-Mini-Hindi-4B数据集由NVIDIA创建,旨在提升多语言大语言模型(LLMs)在低资源语言如印地语(Hindi)中的表现。该数据集包含4000亿个标记,由真实和合成的印地语及英语数据混合组成。数据集的创建过程包括使用机器翻译和音译技术生成合成数据,并结合真实数据进行持续预训练。该数据集主要应用于改进LLMs在印地语和英语任务中的性能,特别是在低资源语言环境下的语言理解和生成能力。
The Nemotron-Mini-Hindi-4B dataset was developed by NVIDIA to improve the performance of multilingual Large Language Models (LLMs) in low-resource languages such as Hindi. This dataset contains 400 billion tokens, and is composed of a mixture of authentic and synthetic Hindi and English data. The dataset creation process includes generating synthetic data using machine translation and transliteration techniques, and combining real-world data for continuous pre-training. This dataset is primarily used to enhance the performance of LLMs on Hindi and English tasks, especially their language understanding and generation capabilities in low-resource language environments.
提供机构:
NVIDIA
创建时间:
2024-10-19
搜集汇总
数据集介绍

构建方式
Nemotron-Mini-Hindi-4B数据集的构建基于Nemotron-Mini-4B模型,通过持续预训练和合成语料库的使用,旨在提升对低资源语言(特别是印地语)的支持。该数据集结合了真实和合成的印地语及英语标记,总计400亿标记。合成数据通过高质量的英语语料库翻译生成,并经过语言模型过滤以确保质量。此外,文本被音译为罗马字符,以支持印地语查询。模型架构保持不变,通过Megatron-LM库在128个Nvidia A100 GPU上进行重新训练。
特点
Nemotron-Mini-Hindi-4B数据集的主要特点在于其双语支持能力,能够同时处理印地语和英语。通过持续预训练,模型在印地语基准测试中达到了最先进的性能,同时在英语任务中也保持竞争力。此外,该数据集通过合成数据的使用,显著提升了模型的事实准确性和区域知识理解能力,减少了幻觉现象。
使用方法
Nemotron-Mini-Hindi-4B数据集适用于需要双语支持的自然语言处理任务,特别是在印地语和英语环境中。用户可以通过Hugging Face等平台访问该数据集,并将其用于监督微调(SFT)和直接偏好优化(DPO)等训练阶段。数据集的评估包括使用IndicXTREME、IndicNLG和IndicQuest等本地印地语基准,以及MMLU和Hellaswag等翻译英语基准。此外,SubjectiveEval数据集用于评估模型在印地语中的生成能力和理解深度。
背景与挑战
背景概述
随着多语言大型语言模型(LLMs)的发展,其在多种语言上的支持能力不断提升。然而,对于低资源语言,如印地语(Hindi),这些模型的表现仍不尽如人意。Nemotron-Mini-Hindi-4B数据集由NVIDIA的研究团队创建,旨在通过持续预训练和合成语料库的使用,提升多语言LLMs在低资源语言上的性能。该数据集基于Nemotron-Mini 4B模型,支持印地语和英语,通过混合真实和合成印地语及英语标记进行训练,持续预训练在4000亿标记上进行。研究团队展示了该模型在印地语基准测试中的最先进结果,同时保持了在英语任务中的竞争力。此外,持续预训练方法显著提高了模型的整体事实准确性。
当前挑战
Nemotron-Mini-Hindi-4B数据集的构建面临多重挑战。首先,低资源语言的数据稀缺性使得模型训练变得困难,容易导致过拟合。其次,合成数据的生成和筛选过程复杂,需要确保数据质量以避免引入噪声。此外,模型在处理印地语查询时,常出现幻觉、无意义句子和英语内容混杂的问题,这影响了模型的实用性。最后,尽管持续预训练方法在提升模型性能方面显示出潜力,但其对低资源语言的适用性和效果仍需进一步验证。
常用场景
经典使用场景
Nemotron-Mini-Hindi-4B数据集的经典使用场景主要集中在低资源语言模型的持续预训练和微调上。通过结合真实和合成数据,该数据集支持对多语言模型进行持续预训练,特别是在印度语(Hindi)和英语的双语环境中。这种预训练方法显著提升了模型在低资源语言上的表现,尤其是在印度语相关的自然语言理解(NLU)和自然语言生成(NLG)任务中。
衍生相关工作
基于Nemotron-Mini-Hindi-4B数据集,研究者们开发了多种相关的经典工作。例如,OpenHathi和Airavata项目通过扩展词汇和使用翻译数据进行监督微调,进一步优化了印度语模型的性能。此外,TamilLLaMA和Navarasa等项目也借鉴了该数据集的方法,成功地将LLMs适应到其他印度语言中,推动了低资源语言处理技术的整体进步。
数据集最近研究
最新研究方向
在多语言大语言模型(LLMs)的背景下,Nemotron-Mini-Hindi-4B数据集的研究聚焦于低资源语言的适应性问题。通过持续预训练和合成语料库的使用,研究团队致力于提升LLMs在低资源语言如印地语中的表现。该研究不仅展示了在印地语基准测试中的最先进成果,还强调了持续预训练对模型整体事实准确性的增强作用。此外,该研究还探讨了监督微调(SFT)和直接偏好优化(DPO)在模型对齐中的应用,以减少幻觉现象并提升模型在目标语言中的响应能力。这些方法不仅提升了模型的性能,还为低资源语言的LLMs适应性研究提供了新的方向。
相关研究论文
- 1Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic CorpusNVIDIA · 2024年
以上内容由遇见数据集搜集并总结生成



