five

GulkoA/TinyStories-gpt2-cache-100k

收藏
Hugging Face2025-03-30 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/GulkoA/TinyStories-gpt2-cache-100k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于文本生成的英文数据集,包含了GPT-2模型在第五层的缓存激活数据,可用于加速稀疏自编码器的训练和测试。数据集的具体参数包括:上下文窗口为512个标记,总标记数为51,200,000个,批处理大小为8个提示(共4096个标记)。

This is an English dataset for text generation, which includes the cached activations at layer 5 of the GPT-2 model, useful for accelerating the training and testing of sparse autoencoders. The specific parameters of the dataset include: a context window of 512 tokens, a total of 51,200,000 tokens, and a batch size of 8 prompts (4096 tokens).
提供机构:
GulkoA
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作