five

SSahas/llm_pretrain_dataset

收藏
Hugging Face2024-10-22 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/SSahas/llm_pretrain_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是salesforce/wikitext数据集的tokenized版本,所有训练集的样本都被连接起来用于预训练LLM。该项目使用PyTorch从头实现了一个仅解码器模型(GPT风格),并使用Salesforce/wikitext进行训练。训练过程包括30000次迭代,批量大小为8,使用Tesla P100 GPU,训练时间约为2.5小时,训练损失约为3.5。使用了Adam优化器,学习率为5e-4。训练后,模型能够生成一些合理的英语文本,但可以通过增加n_embd和block size以及更长的训练时间来改进生成效果。

This is the tokenized data of salesforce/wikitext dataset. All the samples in the train set are concatenated for pretraining the llm. The dataset is used for text generation tasks, with the model trained for 30000 iterations using the Adam optimizer and a specific learning rate. The trained model is capable of generating some reasonable English text.
提供机构:
SSahas
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作