GulkoA/TinyStories-gpt2-cache-100k
收藏Hugging Face2025-03-30 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/GulkoA/TinyStories-gpt2-cache-100k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于文本生成的英文数据集,包含了GPT-2模型在第五层的缓存激活数据,可用于加速稀疏自编码器的训练和测试。数据集的具体参数包括:上下文窗口为512个标记,总标记数为51,200,000个,批处理大小为8个提示(共4096个标记)。
This is an English dataset for text generation, which includes the cached activations at layer 5 of the GPT-2 model, useful for accelerating the training and testing of sparse autoencoders. The specific parameters of the dataset include: a context window of 512 tokens, a total of 51,200,000 tokens, and a batch size of 8 prompts (4096 tokens).
提供机构:
GulkoA



