common-corpus

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/InfoTokenizers/common-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus 25是一个用于语言模型训练的数据集，包含超过10B但小于100B的数据。它有多个子集，包括bytelevel、bytelevel-subset、bytelevel-subset_1和bytelevel-subset_2，每个子集都有唯一的特征，如id、input_ids、num_tokens、language和text。训练集的大小从58504到51191个示例不等，字节数从1246191887到1273627827不等。

通用语料库25（Common Corpus 25）是一款面向语言模型训练的数据集，其包含体量超过100亿且不足1000亿的数据。该数据集设有多个子集，分别为字节级语料（bytelevel）、字节级子集（bytelevel-subset）、字节级子集1（bytelevel-subset_1）以及字节级子集2（bytelevel-subset_2）。各子集均具备唯一的字段特征，涵盖标识（id）、输入Token序列标识（input_ids）、Token数量（num_tokens）、语言类型（language）以及文本内容（text）。各子集的训练集样本量介于58504至51191条之间，字节体量则介于1246191887至1273627827之间。

创建时间：

2025-05-02

原始信息汇总

Common Corpus 25 数据集概述

基本信息

名称: Common Corpus 25
语言: 英语 (en)
标签: 语言建模 (language modeling)
数据规模: 10B < n < 100B

数据集配置

bytelevel
- 默认配置: 是
- 数据文件:
  - 训练集: bytelevel/*.parquet
bytelevel-subset
- 数据文件:
  - 训练集: bytelevel-subset/train-*
- 特征:
  - id (string)
  - input_ids (sequence of int32)
  - num_tokens (int64)
  - language (string)
  - text (string)
- 训练集统计:
  - 字节数: 1,246,191,887
  - 样本数: 58,504
- 下载大小: 259,381,458
- 数据集大小: 1,246,191,887
bytelevel-subset_1
- 数据文件:
  - 训练集: bytelevel-subset_1/train-*
- 特征:
  - id (string)
  - input_ids (sequence of int32)
  - num_tokens (int64)
  - language (string)
  - text (string)
- 训练集统计:
  - 字节数: 1,265,021,153
  - 样本数: 52,597
- 下载大小: 259,551,634
- 数据集大小: 1,265,021,153
bytelevel-subset_2
- 数据文件:
  - 训练集: bytelevel-subset_2/train-*
- 特征:
  - id (string)
  - input_ids (sequence of int32)
  - num_tokens (int64)
  - language (string)
  - text (string)
- 训练集统计:
  - 字节数: 1,273,627,827
  - 样本数: 51,191
- 下载大小: 260,413,499
- 数据集大小: 1,273,627,827

搜集汇总

数据集介绍

构建方式

Common Corpus 25数据集作为大规模语言建模研究的重要资源，其构建过程采用了字节级标记化技术。该数据集通过精心设计的子集划分策略，将原始语料划分为bytelevel-subset、bytelevel-subset_1和bytelevel-subset_2三个配置版本，每个版本均以Parquet格式存储训练数据。数据采集过程注重语言多样性，虽然主要包含英语文本，但通过严谨的预处理流程确保了文本质量。

使用方法

研究者可通过HuggingFace数据集库直接加载不同配置版本，支持按需选择完整数据集或特定子集。数据加载后可直接用于语言模型预训练、文本生成等NLP任务。每个样本包含的input_ids字段便于模型直接处理，而原始text字段则支持自定义预处理。数据集采用分块存储设计，能有效平衡内存使用和数据吞吐效率。

背景与挑战

背景概述

Common Corpus 25作为大规模语言建模领域的重要数据集，由研究机构在近年推出，旨在为自然语言处理任务提供丰富的训练资源。该数据集以英语为主要语言，规模介于100亿至1000亿标记之间，涵盖了多样化的文本类型和主题。其核心研究问题聚焦于如何通过海量高质量文本数据提升语言模型的泛化能力和上下文理解深度，对推动预训练模型的发展具有显著影响力。数据集采用分块存储设计，通过多个子集配置满足不同研究需求，体现了数据组织的前瞻性思考。

当前挑战

在领域问题层面，Common Corpus 25需要解决语言模型训练中数据质量与规模平衡的挑战，包括文本去噪、语义连贯性保持以及领域覆盖均衡等关键问题。构建过程中面临的挑战尤为突出：海量数据的清洗与标注需要高效算法支持，多子集划分导致的数据分布一致性维护增加了工程复杂度，而字节级存储方案虽提升处理效率，但对计算资源提出了更高要求。这些技术难点直接影响着数据集在实际研究中的应用效果。

常用场景

经典使用场景

在自然语言处理领域，Common Corpus 25数据集以其庞大的规模和多样的语言内容，成为训练大规模语言模型的理想选择。该数据集特别适用于预训练阶段，能够为模型提供丰富的语言模式和上下文信息。通过其子集的灵活配置，研究者可以根据具体需求选择合适的训练数据量，从而优化模型性能。

解决学术问题

Common Corpus 25数据集解决了语言模型训练中数据稀缺和多样性不足的问题。其包含的数十亿级别的文本数据和高覆盖率的语言内容，为研究者在语言理解、生成和迁移学习等方面提供了坚实的基础。这一数据集的出现，显著提升了模型在复杂语言任务中的表现，推动了自然语言处理领域的进步。

实际应用

在实际应用中，Common Corpus 25数据集被广泛用于开发各类语言模型，如机器翻译、文本摘要和对话系统。其高质量的数据和多样的语言样本，使得训练出的模型能够更好地适应不同场景和用户需求。企业可以利用该数据集优化其自然语言处理产品，提升用户体验和系统性能。

数据集最近研究