five

naime-corpus-v1

收藏
Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/Leonharper/naime-corpus-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Naime Corpus v1 是一个大规模、多领域的通用预训练语料库,专门使用 Qwen/Qwen3-8B 的分词器进行了分词处理。该数据集旨在为大型语言模型的预训练提供高质量、多样化的文本数据,涵盖了多个领域:英文通用文本(占比 56.6%)、中文通用文本(占比 28.2%)、英文维基百科(占比 10.4%)、中文维基百科(占比 2.2%)、数学相关文本(占比 1.6%)以及代码(占比 0.9%)。总计包含约 2810 亿个 tokens 和超过 3818 万份文档,以 Parquet 格式存储并采用 ZSTD 压缩,总大小约为 42 GB,被划分为 1736 个分片。每个数据样本的序列长度固定为 4096 个 token,Schema 包含四个字段:`input_ids`(分词后 token ID 的 uint32 类型列表,长度 4096)、`chunk_idx`(uint32 类型的块索引)、`domain`(string 类型的领域标签)和 `source_file`(string 类型的源文件标识符)。该数据集适用于大规模语言模型的预训练任务,用户可通过 Hugging Face `datasets` 库加载,并可根据 `domain` 字段筛选特定领域数据。

Naime Corpus v1 is a large-scale, multi-domain general pre-training corpus specifically tokenized using the Qwen/Qwen3-8B tokenizer. This dataset aims to provide high-quality and diverse text data for pre-training large language models, covering multiple domains: English general text (56.6%), Chinese general text (28.2%), English Wikipedia (10.4%), Chinese Wikipedia (2.2%), math-related text (1.6%), and code (0.9%). It contains approximately 281 billion tokens and over 38.18 million documents, stored in Parquet format with ZSTD compression, with a total size of about 42 GB and divided into 1736 shards. Each data sample has a fixed sequence length of 4096 tokens, and the Schema includes four fields: `input_ids` (a list of uint32 token IDs with length 4096), `chunk_idx` (uint32 chunk index), `domain` (string domain label), and `source_file` (string source file identifier). The dataset is suitable for pre-training tasks of large-scale language models, and users can load it via the Hugging Face `datasets` library and filter data by the `domain` field.
创建时间:
2026-05-30
原始信息汇总

Naime Corpus v1 数据集概述

Naime Corpus v1 是一个多领域通用预训练语料库,使用 Qwen3-8B tokenizer 进行分词处理。该数据集旨在为大规模语言模型提供丰富的预训练数据。

数据规格

  • 总 Tokens: 约 281 亿 (28.1B)
  • 总文档数: 38,186,704
  • 序列长度: 4096
  • 格式: Parquet (ZSTD 压缩)
  • 分片数: 1736
  • 总大小: 约 42 GB
  • 分词器: Qwen/Qwen3-8B

语言

  • 英语 (en)
  • 中文 (zh)

领域分布

领域 文档数 占比
general_en 21,608,669 56.6%
general_zh 10,762,743 28.2%
wiki_en 3,983,641 10.4%
wiki_zh 844,764 2.2%
math 628,510 1.6%
code 358,377 0.9%

Schema 结构

每条数据包含以下字段:

  • input_ids: List[uint32],长度为 4096
  • chunk_idx: uint32
  • domain: string (标识所属领域)
  • source_file: string

许可

  • MIT License

使用方式

可通过 Hugging Face Datasets 库加载,例如: python from datasets import load_dataset ds = load_dataset("Leonharper/naime-corpus-v1", split="train") en = ds.filter(lambda x: x["domain"] == "general_en")

搜集汇总
数据集介绍
main_image_url
构建方式
Naime Corpus v1 数据集构建遵循多领域通用预训练语料库的设计理念,其构建方式融合了多源异构数据的统一采集与处理。数据源自英文通用、中文通用、英文维基、中文维基、数学及代码六大领域,总计涵盖超过3800万文档。所有文本均采用 Qwen3-8B 分词器进行标准化切分,并将每个样本截断或填充至固定长度4096的序列,最终以 Parquet(ZSTD压缩)格式分片存储,形成1736个分片、总token数约281亿的庞大规模。
特点
该数据集的核心特色在于其精巧的字段设计与结构化存储。每条记录包含输入ID、区块索引、领域标签及源文件名四个字段,其中 input_ids 为固定长度4096的32位无符号整数列表。领域标签的引入使得研究者能够轻松区分不同语料来源,便于进行领域自适应训练或混合采样。此外,约42GB的紧凑总大小得益于ZSTD压缩与Parquet列式存储,兼顾了存储效率与读取速度。
使用方法
数据集的使用高度契合现代深度学习工作流,仅通过 HuggingFace Datasets 库即可便捷加载。用户可以调用 `load_dataset("Leonharper/naime-corpus-v1", split="train")` 直接获取训练集。借助领域标签字段,可通过简单的过滤操作分离特定子集,例如 `ds.filter(lambda x: x["domain"] == "general_en")` 提取英文通用文本。该设计支持灵活的分领域筛选与混合比例调整,尤其适合多语言、多领域的预训练任务需求。
背景与挑战
背景概述
Naime Corpus v1 是由 Leonharper 团队于近期发布的多领域通用预训练语料库,旨在为大规模语言模型提供高质量、多样化的训练数据。该数据集采用 Qwen3-8B 分词器进行分词处理,涵盖英文、中文、数学及代码等六大领域,总 Tokens 达约281亿,文档数超过3800万。其发布源于对大模型预训练数据规模与多样性日益增长的需求,通过整合维基百科、通用语料及专业领域文本,显著提升了模型在跨语言、跨任务场景下的泛化能力。该数据集以 Parquet 格式高效存储,并采用 ZSTD 压缩以降低存储开销,为后续研究提供了便捷的加载与筛选接口,对推动多语言预训练模型的发展具有重要意义。
当前挑战
Naime Corpus v1 所面临的挑战主要体现在两个方面。首先,在领域问题层面,尽管数据集覆盖了通用中英文、维基百科、数学及代码等核心领域,但在预训练过程中仍需应对数据分布不均衡带来的模型偏置风险,例如英文通用语料占比高达56.6%,而代码与数学领域仅占不足3%,这可能导致模型在低频领域任务上表现不佳。其次,在构建过程中,语料收集与清洗面临质量控制的难题,如何从海量互联网文本中过滤噪声、消除重复并保证跨语言语义一致性,同时确保数据合规性与伦理标准,仍是数据处理流程中的关键瓶颈。此外,序列长度固定为4096的设计也限制了模型对超长上下文依赖关系的建模能力。
常用场景
经典使用场景
Naime Corpus v1 是一个面向多领域通用预训练的大型语料库,其最经典的使用场景在于为大规模语言模型(LLM)的预训练阶段提供高质量、多样化的文本数据。该数据集包含约281亿个token,涵盖英文与中文的通用文本、百科知识、数学与代码等多个领域,能够支撑从零开始的模型预训练或作为领域增量训练的语料基础。其统一的Qwen3-8B tokenizer分词、固定序列长度4096以及高效Parquet格式存储,使其可直接接入主流深度学习框架,极大简化了数据预处理流程。
实际应用
在实际应用中,Naime Corpus v1 可被用于构建金融、法律、教育等垂直行业的对话与生成系统。例如,作为金融风险分析模型的核心预训练数据,其包含的通用英文与中文语料能够帮助模型准确理解行业报告与监管政策,而代码与数学部分则增强了结构化推理能力。该数据集也适配企业级在线学习管道,支持按领域筛选(如仅保留技术文档)来微调特定任务模型,从而降低部署成本并提高专有场景下的模型精调效率。
衍生相关工作
该语料库的发布催生了一系列高质量的相关工作。基于其齐整的分片结构与领域标签,研究者开发了分层采样训练策略,提升了小样本场景下的模型性能;也有工作基于其数学与代码子集(共约2.5%的token)进行了专门的逻辑推理增强微调,并衍生出面向理科推理的专项评测基准。此外,Naime Corpus 的双语特性激励了跨语言模型剪枝与知识蒸馏的研究,形成了多篇聚焦于低资源语言翻译与知识对齐的有影响力的学术论文。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作