meryyllebr543/lunaris-ultrafineweb-20b-tokenized

Name: meryyllebr543/lunaris-ultrafineweb-20b-tokenized
Creator: meryyllebr543
Published: 2025-07-27 22:48:13
License: 暂无描述

Hugging Face2025-07-27 更新2025-08-30 收录

下载链接：

https://hf-mirror.com/datasets/meryyllebr543/lunaris-ultrafineweb-20b-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

Lunaris Ultra-FineWeb 20B Tokenized Dataset 是一个经过预处理的Ultra-FineWeb英文语料库的标记化版本，专为大型语言模型的训练进行优化。该数据集包含200亿个标记，分为20个碎片，每个碎片包含10亿个标记，以便于分布式训练场景中的高效加载。数据集采用自定义的BPE分词器进行标记化，并以NumPy格式存储，确保内存使用高效和加载数据快速。还包括了分词器和处理脚本来准备和使用数据集。

The Lunaris Ultra-FineWeb 20B Tokenized Dataset is a pre-processed, tokenized version of the Ultra-FineWeb English corpus, optimized for efficient training of large language models. The dataset contains 20 billion tokens, split into 20 shards of 1 billion tokens each for efficient distributed training. It is stored in NumPy format with a custom BPE tokenizer and includes scripts for preparation and training to ensure memory efficiency and fast data loading.

提供机构：

meryyllebr543

5,000+

优质数据集

54 个

任务类型

进入经典数据集