E1_Agent
收藏Hugging Face2026-04-08 更新2026-04-09 收录
下载链接:
https://huggingface.co/datasets/ElioChampaney/E1_Agent
下载链接
链接失效反馈官方服务:
资源简介:
NOVA E1 是一个大规模、高质量的预训练语料库,专为训练 E1 Agent(Elio Champaney 项目开发的自定义大型语言模型)而构建。该数据集经过精心筛选和整合,涵盖五大主要领域:英语、代码、数学、法语和多语言(13+ 种语言),总 token 量超过 2000 亿。数据集强调高质量、领域平衡和多语言深度,特别注重逻辑、算法和推理能力。具体数据分布包括:英语约 380 亿 token,代码约 730 亿 token,数学约 120 亿 token,法语约 180 亿 token,以及中文、阿拉伯语、印地语等多语言数据。数据集适用于预训练和多语言模型开发,尤其适合需要强大推理和多语言能力的任务。
创建时间:
2026-04-02
原始信息汇总
NOVA E1 预训练数据集概述
基本信息
- 数据集名称: NOVA E1 — Pretraining Dataset
- 主要用途: 用于训练 E1 Agent 大型语言模型的预训练语料库
- 项目归属: Elio Champaney 项目
- 许可证: Apache-2.0
- 规模类别: n>100B
- 支持语言: 英语、法语、中文、阿拉伯语、印地语、西班牙语、孟加拉语、葡萄牙语、俄语、德语、意大利语、日语、荷兰语、拉丁语、韩语、波兰语、乌尔都语、泰米尔语、土耳其语、马拉地语、埃及阿拉伯语、尼日利亚皮钦语、印度尼西亚语
- 内容标签: 预训练、多语言、代码、数学、推理、高质量
数据集规模
- 总规模: 约 2040 亿令牌 (tokens)
- 各领域规模:
- 🔤 英语: ~380 亿令牌
- 💻 代码: ~730 亿令牌
- ➗ 数学: ~120 亿令牌
- 🇫🇷 法语: ~180 亿令牌
- 🇨🇳 中文 (普通话): ~100 亿令牌
- 🇸🇦 阿拉伯语 (标准): ~100 亿令牌
- 🇮🇳 印地语: ~70 亿令牌
- 🇪🇸 西班牙语: ~70 亿令牌
- 🇧🇩 孟加拉语: ~70 亿令牌
- 🇵🇹 葡萄牙语: ~70 亿令牌
- 🇷🇺 俄语: ~70 亿令牌
- 🇩🇪 德语: ~70 亿令牌
- 🌐 其他语言 (初始): ~100 亿令牌
数据来源与构成
💻 代码领域 (~730 亿令牌)
- 主要来源:
OpenCoder-LLM/RefineCode-code-corpus-meta(https://huggingface.co/datasets/OpenCoder-LLM/RefineCode-code-corpus-meta/)- 包含 Python、Web (JavaScript/TypeScript/HTML)、对象/系统 (Java)、低级语言 (C/C++)、现代/性能语言 (Go/Rust)、文档 (StackOverflow/Markdown)、基础设施 (SQL/Shell) 等类别
nvidia/Nemotron-Pretraining-Specialized-v1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1)- Nemotron-Pretraining-Coding-Scientific 子集
nvidia/Nemotron-Pretraining-Specialized-v1.1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1.1)- Nemotron-Pretraining-Code-Concepts 和 Nemotron-Pretraining-Unconditional-Algorithmic 子集
nvidia/Nemotron-Pretraining-Dataset-sample(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Dataset-sample)- Nemotron-Code-Synthetic 和 Nemotron-SFT-Code 子集
➗ 数学领域 (~120 亿令牌)
- 主要来源:
nvidia/Nemotron-Pretraining-Specialized-v1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1)- Nemotron-Pretraining-Math-Textbooks 子集
nvidia/Nemotron-Pretraining-Specialized-v1.1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1.1)- Nemotron-Pretraining-Formal-Logic 和 Nemotron-Pretraining-MultipleChoice 子集
nvidia/Nemotron-CC-Math-v1(https://huggingface.co/datasets/nvidia/Nemotron-CC-Math-v1)- Nemotron-CC-Math-v1-4plus 和 Nemotron-CC-Math-v1-4plus_MIND 子集
nvidia/Nemotron-Pretraining-Dataset-sample(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Dataset-sample)- Nemotron-CC-MATH 和 Nemotron-SFT-MATH 子集
OpenCoder-LLM/opc-fineweb-math-corpus(https://huggingface.co/datasets/OpenCoder-LLM/opc-fineweb-math-corpus)- OPC-FineWeb-Math 子集
🔤 英语领域 (~380 亿令牌)
- 主要来源:
nvidia/Nemotron-Pretraining-Specialized-v1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1)- Nemotron-Pretraining-InfiniByte-Reasoning 子集
nvidia/Nemotron-Pretraining-Specialized-v1.1(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1.1)- Nemotron-Pretraining-InfiniByte-Reasoning 和 Nemotron-Pretraining-Economics 子集
nvidia/Nemotron-Pretraining-Dataset-sample(https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Dataset-sample)- Nemotron-CC-High-Quality 和 Nemotron-CC-High-Quality-Synthetic 子集
HuggingFaceFW/fineweb(https://huggingface.co/datasets/HuggingFaceFW/fineweb/)- CC-MAIN-2013-20 → CC-MAIN-2025-26 子集
PleIAs/common_corpus(https://huggingface.co/datasets/PleIAs/common_corpus)- English 子集
🌍 多语言领域 (~780 亿令牌)
- 核心语言 (具有显著令牌量):
- 法语、印地语、孟加拉语、中文、阿拉伯语、俄语、西班牙语、葡萄牙语、德语
- 初始语言 (约 100 亿令牌组合):
- 意大利语、日语、荷兰语、拉丁语、韩语、波兰语、乌尔都语、泰米尔语、土耳其语、马拉地语、埃及阿拉伯语、尼日利亚皮钦语、印度尼西亚语
- 多语言数据来源:
- FineWeb-2、FineTranslations、FinePDFs-Edu、Common Corpus、French-Science、FineWeb2-HQ
设计理念
- 质量优于数量: 优先选择信号密度高的来源,在可用的情况下优先使用合成和过滤的子集。
- 领域平衡: 相对于标准网络语料库,代码、数学和推理数据被有意过度表示,以反映 E1 Agent 的目标能力。
- 多语言深度: 在核心语言上投入大量资源,同时引导更广泛的初始语言集,确保模型建立真正的多语言能力。
搜集汇总
数据集介绍

构建方式
在构建大规模预训练语料库的背景下,NOVA E1数据集通过精心策划与整合多个高质量公开源而构建。其构建过程遵循严格的筛选原则,从英语、代码、数学、法语及多语言五大核心领域选取了信号密度突出的数据子集。具体而言,代码领域主要源自OpenCoder-LLM和NVIDIA的Nemotron系列,数学领域则整合了教科书、形式逻辑及多选题目等专项语料,英语部分强调推理与经济类文本,多语言部分则依据核心与初始化双层级策略,对法语、中文、阿拉伯语等十余种语言进行了深度覆盖与初步引导。整个语料库的构建注重源数据的纯净度与领域平衡,最终形成了超过2000亿标记的庞大规模。
特点
该数据集展现出显著的高质量与领域专精特征。其核心优势在于超越了传统网络爬取数据的范畴,大量纳入了经过合成与过滤的专项子集,如Nemotron的高质量合成数据与指令微调语料,从而确保了文本的信息密度与逻辑严谨性。在领域构成上,代码与数学内容的占比被刻意提升,旨在强化模型在算法与逻辑推理方面的能力。多语言覆盖策略也别具匠心,通过对法语、中文等核心语言投入大量标记,并对意大利语、日语等十余种语言进行初始化引导,在保证深度理解的同时拓展了语言的广度,为训练具备真正多语言与强推理能力的大模型奠定了坚实基础。
使用方法
作为专为E1 Agent大语言模型设计的预训练语料库,该数据集主要用于模型的基础能力塑造。研究者或开发者可通过HuggingFace平台直接加载该数据集,将其应用于大规模自回归语言模型的预训练阶段。在使用时,可依据模型训练目标,灵活参考其领域划分(如代码、数学、多语言)进行数据混合比例的调整,以优化模型在特定任务上的表现。鉴于其数据已进行过严格的源头筛选与质量过滤,使用者可专注于模型架构与超参数的调优,从而高效地训练出在代码生成、数学解题及多语言理解等方面表现卓越的智能体模型。
背景与挑战
背景概述
在大型语言模型(LLM)预训练领域,构建高质量、多领域且规模庞大的数据集是推动模型性能突破的关键基础。NOVA E1数据集应运而生,作为Elio Champaney项目下为训练E1 Agent定制大语言模型而精心组装的预训练语料库。该数据集由研究团队通过系统化筛选与融合公开优质数据源构建而成,其核心研究问题聚焦于如何整合涵盖代码、数学、英语及多语言(覆盖超过13种语言)的高信号密度数据,以显著增强模型在逻辑推理、算法理解和多语言处理方面的能力。自创建以来,该数据集以其超过2000亿令牌的庞大体量和对特定领域的深度覆盖,为开发具备强大agentic推理能力的下一代语言模型提供了至关重要的数据支撑,在代码生成与数学推理等专业化任务上展现出深远的影响力。
当前挑战
该数据集旨在解决的领域挑战,在于如何让单一模型同时精通代码生成、复杂数学问题求解以及跨多种自然语言的理解与生成,这要求数据在逻辑严谨性、符号准确性和语言多样性之间取得精妙平衡。在构建过程中,团队面临多重具体挑战:首要挑战是数据源的筛选与质量控制,需从海量公开数据中鉴别并整合如Nemotron、FineWeb等高质量子集,确保数据具有高信号密度而非简单堆砌。其次,实现跨领域的平衡表征极具难度,需精心调配代码、数学等专业数据与通用文本的比例,避免模型偏向单一领域。此外,构建真正的多语言能力而非表面覆盖,要求对核心语言进行深度数据投入,并对初始化语言进行有效引导,这涉及复杂的语料规划与资源分配。最后,将异构数据源进行标准化处理与无缝融合,以形成统一、协调的预训练语料,也是一个不容忽视的技术挑战。
常用场景
经典使用场景
在大型语言模型预训练领域,NOVA E1数据集以其超过2000亿令牌的庞大规模和精心策划的多领域结构,为构建具备强大逻辑推理与多语言理解能力的智能体模型提供了核心训练资源。该数据集经典地应用于训练如E1 Agent这类定制化大语言模型,通过融合代码、数学、英语及多语言文本,模型能够在编程任务、数学问题求解以及跨语言自然语言处理中展现出卓越的泛化性能。
解决学术问题
该数据集有效应对了当前大模型预训练中数据质量参差不齐与领域覆盖失衡的学术挑战。通过精选高质量来源并强化代码与数学数据的比重,它促进了模型在复杂推理和算法思维方面的能力发展,为探索模型在结构化知识理解和逻辑演绎上的极限提供了实验基础。其多语言深度整合策略,亦为解决模型在核心语言上实现真正语义理解而非浅层覆盖的研究问题提供了数据范式。
衍生相关工作
该数据集的构建理念与高质量筛选方法,启发了后续一系列专注于领域专业化与数据纯净度的预训练数据工作。其多层级语言整合策略为后续多语言模型研究提供了参考,而其对代码与数学数据的强调,则直接推动了代码大模型与数学推理模型等细分领域的发展。相关衍生工作包括对特定语言或垂直领域进行更深度的数据清洗与扩充,以及探索合成数据与真实数据在预训练中的最优混合比例。
以上内容由遇见数据集搜集并总结生成



