fineweb-edu-10BT-for-gpt2
收藏kaggle2024-07-20 更新2025-01-04 收录
下载链接:
https://www.kaggle.com/datasets/minhthiennguyen/fineweb-edu-10bt-for-gpt2
下载链接
链接失效反馈官方服务:
资源简介:
Tokenized Fineweb-Edu (10BT subset) for pre-training GPT2 model.
针对预训练 GPT2 模型,提供经过分词处理的 Fineweb-Edu 数据集(10BT 子集)
创建时间:
2024-07-20



