five

Hibiki711/fw-bert-tokenized-flattened

收藏
Hugging Face2024-07-27 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Hibiki711/fw-bert-tokenized-flattened
下载链接
链接失效反馈
官方服务:
资源简介:
数据集FineWeb EDU 10BT Tokenized (BERT)是一个使用bert-base-uncased分词器对10亿个标记样本进行分词和扁平化处理的版本。每个文档通过[SEP]标记分隔。该数据集包含大量的标记数组,适用于填充掩码和文本生成任务,主要语言为英语。

Just a tokenized and flattened version of the 10 billion token sample of FineWeb EDU dataset with the bert-base-uncased tokenizer. Practically a huge array of tokens with each doc separated by [SEP].
提供机构:
Hibiki711
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作