five

MultilingualUnigramLM/FineWeb2-100M-olmo3-7b-toks

收藏
Hugging Face2026-03-14 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/MultilingualUnigramLM/FineWeb2-100M-olmo3-7b-toks
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: deu_Latn data_files: - split: train path: data/deu_Latn-*.parquet - config_name: eng_Latn data_files: - split: train path: data/eng_Latn-*.parquet - config_name: fil_Latn data_files: - split: train path: data/fil_Latn-*.parquet - config_name: hau_Latn data_files: - split: train path: data/hau_Latn-*.parquet - config_name: ibo_Latn data_files: - split: train path: data/ibo_Latn-*.parquet - config_name: ind_Latn data_files: - split: train path: data/ind_Latn-*.parquet - config_name: lit_Latn data_files: - split: train path: data/lit_Latn-*.parquet - config_name: nya_Latn data_files: - split: train path: data/nya_Latn-*.parquet - config_name: ron_Latn data_files: - split: train path: data/ron_Latn-*.parquet - config_name: sna_Latn data_files: - split: train path: data/sna_Latn-*.parquet - config_name: som_Latn data_files: - split: train path: data/som_Latn-*.parquet - config_name: swh_Latn data_files: - split: train path: data/swh_Latn-*.parquet - config_name: yor_Latn data_files: - split: train path: data/yor_Latn-*.parquet - config_name: zsm_Latn data_files: - split: train path: data/zsm_Latn-*.parquet ---

数据集配置如下: - 配置名称:deu_Latn(德语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/deu_Latn-*.parquet(Parquet格式文件) - 配置名称:eng_Latn(英语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/eng_Latn-*.parquet(Parquet格式文件) - 配置名称:fil_Latn(他加禄语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/fil_Latn-*.parquet(Parquet格式文件) - 配置名称:hau_Latn(豪萨语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/hau_Latn-*.parquet(Parquet格式文件) - 配置名称:ibo_Latn(伊博语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/ibo_Latn-*.parquet(Parquet格式文件) - 配置名称:ind_Latn(印尼语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/ind_Latn-*.parquet(Parquet格式文件) - 配置名称:lit_Latn(立陶宛语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/lit_Latn-*.parquet(Parquet格式文件) - 配置名称:nya_Latn(尼扬扎语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/nya_Latn-*.parquet(Parquet格式文件) - 配置名称:ron_Latn(罗马尼亚语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/ron_Latn-*.parquet(Parquet格式文件) - 配置名称:sna_Latn(绍纳语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/sna_Latn-*.parquet(Parquet格式文件) - 配置名称:som_Latn(索马里语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/som_Latn-*.parquet(Parquet格式文件) - 配置名称:swh_Latn(斯瓦希里语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/swh_Latn-*.parquet(Parquet格式文件) - 配置名称:yor_Latn(约鲁巴语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/yor_Latn-*.parquet(Parquet格式文件) - 配置名称:zsm_Latn(标准马来语拉丁脚本) 数据文件: - 数据集划分:训练集 文件路径:data/zsm_Latn-*.parquet(Parquet格式文件)
提供机构:
MultilingualUnigramLM
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作