five

nev8r/vermind_dataset

收藏
Hugging Face2026-01-08 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/nev8r/vermind_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: zh license: apache-2.0 --- # 中文大语言模型训练数据集 多阶段训练数据集,包含 pretrain、SFT、RL 等数据。 ## 数据集结构 | 数据集 | 类型 | 描述 | |--------|------|------| | [pretrain](./pretrain) | 预训练 | 中文预训练语料 | | sft | (待添加) | 监督微调数据 | | rl | (待添加) | 强化学习数据 | ## Pretrain 数据集 ### 简介 CLUECorpusSmall,中文预训练语料小规模版本,来自 CLUECenchmark 公开数据集。 ### 数据来源 (CLUECorpus2020) | 来源 | 描述 | |------|------| | comment2019zh | 亚马逊/点评评论数据 | | news2016zh | 新闻数据 | | webText2019zh | 网页文本数据 | | wiki2019zh | 维基百科数据 | 数据来源: https://github.com/CLUEbenchmark/CLUECorpus2020 ### 数据格式 每行一条 JSON 记录: ```json {"text":"xxx"} ``` ### 文件说明 - `*.zip`: 原始压缩包 (comment/news/webText/wiki) - `pretrain.jsonl`: 处理后的数据文件 ### 预处理 1. 解压 zip 文件 2. 逐行读取文本 3. 转换为 `{"text":"xxx"}` 格式 4. 合并为单一 jsonl 文件 5. 清理空行 ## 贡献新数据集 请参考各子目录结构添加新数据。
提供机构:
nev8r
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作