nikolina-p/gutenberg_flat

Name: nikolina-p/gutenberg_flat
Creator: nikolina-p
Published: 2025-10-20 18:03:23
License: 暂无描述

Hugging Face2025-10-20 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/nikolina-p/gutenberg_flat

下载链接

链接失效反馈

官方服务：

资源简介：

A cleaned and tokenized English-language subset of the Project Gutenberg dataset containing 38,026 books. Non-English texts, duplicates, and boilerplate license sections were removed for clarity and usability. The dataset was tokenized using OpenAIs tiktoken tokenizer and optimized for efficient streaming and distributed training. Each row includes 65,537 tokens, which is suitable for autoregressive model training.

提供机构：

nikolina-p

5,000+

优质数据集

54 个

任务类型

进入经典数据集