Hibiki711/fw-bert-tokenized-flattened
收藏Hugging Face2024-07-27 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Hibiki711/fw-bert-tokenized-flattened
下载链接
链接失效反馈官方服务:
资源简介:
数据集FineWeb EDU 10BT Tokenized (BERT)是一个使用bert-base-uncased分词器对10亿个标记样本进行分词和扁平化处理的版本。每个文档通过[SEP]标记分隔。该数据集包含大量的标记数组,适用于填充掩码和文本生成任务,主要语言为英语。
Just a tokenized and flattened version of the 10 billion token sample of FineWeb EDU dataset with the bert-base-uncased tokenizer. Practically a huge array of tokens with each doc separated by [SEP].
提供机构:
Hibiki711



