shahrukhx01/wikipedia-bookscorpus-en-preprocessed

Name: shahrukhx01/wikipedia-bookscorpus-en-preprocessed
Creator: shahrukhx01
Published: 2025-02-02 07:55:09
License: 暂无描述

Hugging Face2025-02-02 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/shahrukhx01/wikipedia-bookscorpus-en-preprocessed

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过预处理的英语维基百科和BookCorpus数据集组合，优化用于BERT预训练。数据集被分割成约820个字符的段落，以适应典型的变换器架构。该数据集经过语言过滤，仅保留英语样本，并进行文本分块、归一化处理，最后打乱顺序并分布在多个JSONL文件中，以便高效训练。

A preprocessed and normalized combination of English Wikipedia and BookCorpus datasets, optimized for BERT pretraining. The dataset is chunked into segments of ~820 characters to accommodate typical transformer architectures. It has been language filtered to retain only English samples, text chunked, normalized, and shuffled for efficient training across multiple JSONL files.

提供机构：

shahrukhx01

5,000+

优质数据集

54 个

任务类型

进入经典数据集