SSahas/llm_pretrain_dataset

Name: SSahas/llm_pretrain_dataset
Creator: SSahas
Published: 2024-10-22 06:37:38
License: 暂无描述

Hugging Face2024-10-22 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/SSahas/llm_pretrain_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是salesforce/wikitext数据集的tokenized版本，所有训练集的样本都被连接起来用于预训练LLM。该项目使用PyTorch从头实现了一个仅解码器模型（GPT风格），并使用Salesforce/wikitext进行训练。训练过程包括30000次迭代，批量大小为8，使用Tesla P100 GPU，训练时间约为2.5小时，训练损失约为3.5。使用了Adam优化器，学习率为5e-4。训练后，模型能够生成一些合理的英语文本，但可以通过增加n_embd和block size以及更长的训练时间来改进生成效果。

This is the tokenized data of salesforce/wikitext dataset. All the samples in the train set are concatenated for pretraining the llm. The dataset is used for text generation tasks, with the model trained for 30000 iterations using the Adam optimizer and a specific learning rate. The trained model is capable of generating some reasonable English text.

提供机构：

SSahas

5,000+

优质数据集

54 个

任务类型

进入经典数据集