nvidia/Nemotron-MIND
收藏Hugging Face2025-04-24 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/nvidia/Nemotron-MIND
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-MIND数据集是一个支持Nemotron5系列模型数学推理能力提升的预训练数据集。该数据集包含了超过1380亿个标记的结构化数学对话,这些对话是由Nemotron4-340B-Instruct模型生成的。数据集的生成过程包括设计多样化的提示模板、使用OpenWebMath作为基础语料库、大规模生成对话以及应用启发式规则过滤低质量输出。该数据集主要用于从零开始预训练LLM模型,并展示了在数学能力上的显著提升。
The Nemotron-MIND Dataset is a compilation of pretraining data that supports improvements of math reasoning capabilities of the Nemotron5 series of models. It contains over 138 billion tokens of structured mathematical dialogues generated by Nemotron4-340B-Instruct. The dataset is designed to aid in pretraining LLMs from scratch and demonstrates significant improvements in math capabilities of the pretrained models.
提供机构:
nvidia



