MultilingualUnigramLM/FineWeb2-100M-olmo3-7b-toks
收藏Hugging Face2026-03-14 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/MultilingualUnigramLM/FineWeb2-100M-olmo3-7b-toks
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: deu_Latn
data_files:
- split: train
path: data/deu_Latn-*.parquet
- config_name: eng_Latn
data_files:
- split: train
path: data/eng_Latn-*.parquet
- config_name: fil_Latn
data_files:
- split: train
path: data/fil_Latn-*.parquet
- config_name: hau_Latn
data_files:
- split: train
path: data/hau_Latn-*.parquet
- config_name: ibo_Latn
data_files:
- split: train
path: data/ibo_Latn-*.parquet
- config_name: ind_Latn
data_files:
- split: train
path: data/ind_Latn-*.parquet
- config_name: lit_Latn
data_files:
- split: train
path: data/lit_Latn-*.parquet
- config_name: nya_Latn
data_files:
- split: train
path: data/nya_Latn-*.parquet
- config_name: ron_Latn
data_files:
- split: train
path: data/ron_Latn-*.parquet
- config_name: sna_Latn
data_files:
- split: train
path: data/sna_Latn-*.parquet
- config_name: som_Latn
data_files:
- split: train
path: data/som_Latn-*.parquet
- config_name: swh_Latn
data_files:
- split: train
path: data/swh_Latn-*.parquet
- config_name: yor_Latn
data_files:
- split: train
path: data/yor_Latn-*.parquet
- config_name: zsm_Latn
data_files:
- split: train
path: data/zsm_Latn-*.parquet
---
数据集配置如下:
- 配置名称:deu_Latn(德语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/deu_Latn-*.parquet(Parquet格式文件)
- 配置名称:eng_Latn(英语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/eng_Latn-*.parquet(Parquet格式文件)
- 配置名称:fil_Latn(他加禄语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/fil_Latn-*.parquet(Parquet格式文件)
- 配置名称:hau_Latn(豪萨语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/hau_Latn-*.parquet(Parquet格式文件)
- 配置名称:ibo_Latn(伊博语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/ibo_Latn-*.parquet(Parquet格式文件)
- 配置名称:ind_Latn(印尼语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/ind_Latn-*.parquet(Parquet格式文件)
- 配置名称:lit_Latn(立陶宛语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/lit_Latn-*.parquet(Parquet格式文件)
- 配置名称:nya_Latn(尼扬扎语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/nya_Latn-*.parquet(Parquet格式文件)
- 配置名称:ron_Latn(罗马尼亚语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/ron_Latn-*.parquet(Parquet格式文件)
- 配置名称:sna_Latn(绍纳语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/sna_Latn-*.parquet(Parquet格式文件)
- 配置名称:som_Latn(索马里语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/som_Latn-*.parquet(Parquet格式文件)
- 配置名称:swh_Latn(斯瓦希里语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/swh_Latn-*.parquet(Parquet格式文件)
- 配置名称:yor_Latn(约鲁巴语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/yor_Latn-*.parquet(Parquet格式文件)
- 配置名称:zsm_Latn(标准马来语拉丁脚本)
数据文件:
- 数据集划分:训练集
文件路径:data/zsm_Latn-*.parquet(Parquet格式文件)
提供机构:
MultilingualUnigramLM



