five

alexjc/fineweb-tokmon-10B

收藏
Hugging Face2025-01-21 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/alexjc/fineweb-tokmon-10B
下载链接
链接失效反馈
官方服务:
资源简介:
这些二进制文件包含8.4B个来自FineWeb 10B样本的标记,这些标记是使用TokenMonster处理的,使用了一个缩减后的英语词汇表,大小与GPT-2相同。这些标记可以作为FineWeb的直接替代品,用于个人研究,旨在减少标记数量并可能提升训练速度。词汇表是通过过滤英语100,256平衡词汇表创建的,移除了包含多个单词组合的标记和其他可能训练不足的罕见标记。

The FineWeb TokenMonster 10B dataset contains 8.4B tokens processed with TokenMonster, using a subset of the English 100,256 vocabulary and reduced to 50,256 to match the size of GPT-2. These tokens can be used as a drop-in replacement for FineWeb in the NanoGPT Speedrun repository for personal research. TokenMonster requires fewer tokens than tiktoken, and experiments show that ungreedy tokenization can be more effective. The vocabulary was created by filtering down the English 100,256 balanced vocabulary, removing tokens that include multiple words combined and other infrequent tokens.
提供机构:
alexjc
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作