fineweb-edu-pretokenized-10M
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/marin-community/fineweb-edu-pretokenized-10M
下载链接
链接失效反馈官方服务:
资源简介:
# Marin/Levanter Subsampled Pretokenized Dataset
## Dataset
Train Urls:
- gs://marin-us-central2/raw/fineweb-edu-c2beb4/3c452cb/huggingface.co/datasets/HuggingFaceFW/fineweb-edu/resolve/3c452cb
## Factsheet
* Original cache: gs://marin-us-central2/tokenized/fineweb-edu-24698d
* Tokenizer: [stanford-crfm/marin-tokenizer](https://huggingface.co/stanford-crfm/marin-tokenizer)
* Seed 42
* Number of tokens: 10,000,680
(This readme is automatically generated by Marin.)
# Marin/Levanter 下采样预分词数据集
## 数据集
训练集下载链接:
- gs://marin-us-central2/raw/fineweb-edu-c2beb4/3c452cb/huggingface.co/datasets/HuggingFaceFW/fineweb-edu/resolve/3c452cb
## 数据集说明表
* 原始缓存路径:gs://marin-us-central2/tokenized/fineweb-edu-24698d
* 分词器(Tokenizer):[stanford-crfm/marin-tokenizer](https://huggingface.co/stanford-crfm/marin-tokenizer)
* 随机种子:42
* 总Token数:10,000,680
本说明文档由Marin自动生成。
提供机构:
maas
创建时间:
2025-10-30



