fineweb-edu-10BT-for-gpt2
收藏kaggle2024-07-12 更新2024-07-13 收录
下载链接:
https://www.kaggle.com/datasets/minhthiennguyen/fineweb-edu-10bt-for-gpt2
下载链接
链接失效反馈官方服务:
资源简介:
Tokenized Fineweb-edu (10BT subset) for pre-training GPT2 model.
对 Fineweb-edu 数据集进行标记化处理,以用于预训练 GPT2 模型(10BT 子集)。
创建时间:
2024-07-12



