预训练中文数据集
收藏魔搭社区2026-05-30 更新2025-06-14 收录
下载链接:
https://modelscope.cn/datasets/BazingaLyn/mini_pretrain_dataset
下载链接
链接失效反馈官方服务:
资源简介:
内容抽取自匠心sft数据集,数据相对比较高质量。最大长度为512,删除了生成表格的预训练数据。
The content of this dataset is extracted from the Jiangxin SFT Dataset, and the data is of relatively high quality. It has a maximum sequence length of 512, and pre-training data related to table generation has been removed.
提供机构:
maas
创建时间:
2025-06-10
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个预训练中文数据集,由BazingaLyn贡献,大小为5.15GB,更新于2025年6月28日,采用Apache License 2.0许可证。数据集卡片未提供详细描述,但可通过登录后使用SDK或GIT克隆方式下载,文件信息需在'数据集文件'页面查看。
以上内容由遇见数据集搜集并总结生成



