tower-context-train-dataset
收藏魔搭社区2025-09-13 更新2025-09-20 收录
下载链接:
https://modelscope.cn/datasets/midway2333/tower-context-train-dataset
下载链接
链接失效反馈官方服务:
资源简介:
# 小模型长文本训练集
### 数据来源: [SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B)
- 2020-40 head 00~10
- 2023-06 head 00~05
- 2023-14 head 00~07
使用此部分时请注意遵守[Skywork模型社区许可协议](https://huggingface.co/datasets/Skywork/SkyPile-150B/blob/main/Skywork%20%E6%A8%A1%E5%9E%8B%E7%A4%BE%E5%8C%BA%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)与[Apache2.0](https://www.apache.org/licenses/LICENSE-2.0.html), 余下部分遵守[CC0-1.0](https://creativecommons.org/public-domain/cc0/)协议
### 数据清洗脚本
- [clean.py](clean.py)
- 至少需要`64GB`内存
- 由千问生成
### 数据切分
按`0.6`, `0.25`, `0.15`的比例切分, 对应训练`256`, `512`, `1024`的长度
### 清洗结果
```bash
============================================
📁 输入文件数: 24
🧵 使用线程数: 8
📊 原始数据统计:
- 未清洗前总行数: 11,514,841
- 被跳过的行数: 0
- 有效 JSON 对象数: 11,514,841
🧽 清洗统计:
- 包含 BiDi 控制字符的对象数: 4,969
♻️ 去重统计:
- 重复对象数: 1,458,258
- 去重后唯一对象数: 10,056,583
✂️ 数据划分:
- 验证集大小: 10,000
- 训练集总大小: 10,046,583
├─ 训练集 256 (60%): 6,027,949
├─ 训练集 512 (25%): 2,511,645
└─ 训练集 1024 (15%): 1,506,989
============================================
```
# 小模型长文本训练集
### 数据来源: [SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B)
- 2020年第40期头部文件00~10
- 2023年第6期头部文件00~05
- 2023年第14期头部文件00~07
使用该部分数据时,请务必遵守[Skywork模型社区许可协议](https://huggingface.co/datasets/Skywork/SkyPile-150B/blob/main/Skywork%20%E6%A8%A1%E5%9E%8B%E7%A4%BE%E5%8C%BA%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)与[Apache 2.0开源协议](https://www.apache.org/licenses/LICENSE-2.0.html);其余数据部分需遵守[CC0 1.0协议](https://creativecommons.org/public-domain/cc0/)。
### 数据清洗脚本
- [clean.py脚本](clean.py)
- 运行该脚本至少需要64GB系统内存
- 脚本由千问生成
### 数据切分
按照0.6、0.25、0.15的比例进行数据切分,分别对应长度为256、512、1024的训练样本。
### 清洗结果
bash
============================================
📁 输入文件总量:24个
🧵 启用线程数:8个
📊 原始数据概览:
- 清洗前总数据行数:11,514,841
- 跳过数据行数:0
- 有效JSON对象总数:11,514,841
🧽 清洗后统计:
- 包含BiDi控制字符的对象数量:4,969
♻️ 去重统计:
- 重复数据对象数:1,458,258
- 去重后唯一数据对象数:10,056,583
✂️ 数据拆分:
- 验证集规模:10,000条
- 训练集总规模:10,046,583条
├─ 256长度训练子集(占比60%):6,027,949条
├─ 512长度训练子集(占比25%):2,511,645条
└─ 1024长度训练子集(占比15%):1,506,989条
============================================
提供机构:
maas
创建时间:
2025-09-13



