chinese_fineweb_v2的Qwen3分词版
收藏魔搭社区2025-12-04 更新2025-06-21 收录
下载链接:
https://modelscope.cn/datasets/hh2395959141/chinese_fineweb_v2_486G
下载链接
链接失效反馈官方服务:
资源简介:
使用chinese_fineweb_v2中文预训练数据集前27%,最终使用Qwen3分词,样本长度2048,得到5000W条样本的数据集文件
This dataset was developed by utilizing the first 27% portion of the chinese_fineweb_v2 Chinese pre-training dataset, applying Qwen3 tokenization, standardizing the sample length to 2048, and finally generating a dataset file containing 50 million samples.
提供机构:
maas
创建时间:
2025-06-14
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集为chinese_fineweb_v2的Qwen3分词版,采用Apache License 2.0许可证,大小为520.78GB,更新于2025年6月15日。下载需登录,可通过ModelScope SDK或GIT克隆获取,但未提供详细数据集介绍。
以上内容由遇见数据集搜集并总结生成



