five

tower-context-train-dataset

收藏
魔搭社区2025-09-13 更新2025-09-20 收录
下载链接:
https://modelscope.cn/datasets/midway2333/tower-context-train-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# 小模型长文本训练集 ### 数据来源: [SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B) - 2020-40 head 00~10 - 2023-06 head 00~05 - 2023-14 head 00~07 使用此部分时请注意遵守[Skywork模型社区许可协议](https://huggingface.co/datasets/Skywork/SkyPile-150B/blob/main/Skywork%20%E6%A8%A1%E5%9E%8B%E7%A4%BE%E5%8C%BA%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)与[Apache2.0](https://www.apache.org/licenses/LICENSE-2.0.html), 余下部分遵守[CC0-1.0](https://creativecommons.org/public-domain/cc0/)协议 ### 数据清洗脚本 - [clean.py](clean.py) - 至少需要`64GB`内存 - 由千问生成 ### 数据切分 按`0.6`, `0.25`, `0.15`的比例切分, 对应训练`256`, `512`, `1024`的长度 ### 清洗结果 ```bash ============================================ 📁 输入文件数: 24 🧵 使用线程数: 8 📊 原始数据统计: - 未清洗前总行数: 11,514,841 - 被跳过的行数: 0 - 有效 JSON 对象数: 11,514,841 🧽 清洗统计: - 包含 BiDi 控制字符的对象数: 4,969 ♻️ 去重统计: - 重复对象数: 1,458,258 - 去重后唯一对象数: 10,056,583 ✂️ 数据划分: - 验证集大小: 10,000 - 训练集总大小: 10,046,583 ├─ 训练集 256 (60%): 6,027,949 ├─ 训练集 512 (25%): 2,511,645 └─ 训练集 1024 (15%): 1,506,989 ============================================ ```

# 小模型长文本训练集 ### 数据来源: [SkyPile-150B](https://huggingface.co/datasets/Skywork/SkyPile-150B) - 2020年第40期头部文件00~10 - 2023年第6期头部文件00~05 - 2023年第14期头部文件00~07 使用该部分数据时,请务必遵守[Skywork模型社区许可协议](https://huggingface.co/datasets/Skywork/SkyPile-150B/blob/main/Skywork%20%E6%A8%A1%E5%9E%8B%E7%A4%BE%E5%8C%BA%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE.pdf)与[Apache 2.0开源协议](https://www.apache.org/licenses/LICENSE-2.0.html);其余数据部分需遵守[CC0 1.0协议](https://creativecommons.org/public-domain/cc0/)。 ### 数据清洗脚本 - [clean.py脚本](clean.py) - 运行该脚本至少需要64GB系统内存 - 脚本由千问生成 ### 数据切分 按照0.6、0.25、0.15的比例进行数据切分,分别对应长度为256、512、1024的训练样本。 ### 清洗结果 bash ============================================ 📁 输入文件总量:24个 🧵 启用线程数:8个 📊 原始数据概览: - 清洗前总数据行数:11,514,841 - 跳过数据行数:0 - 有效JSON对象总数:11,514,841 🧽 清洗后统计: - 包含BiDi控制字符的对象数量:4,969 ♻️ 去重统计: - 重复数据对象数:1,458,258 - 去重后唯一数据对象数:10,056,583 ✂️ 数据拆分: - 验证集规模:10,000条 - 训练集总规模:10,046,583条 ├─ 256长度训练子集(占比60%):6,027,949条 ├─ 512长度训练子集(占比25%):2,511,645条 └─ 1024长度训练子集(占比15%):1,506,989条 ============================================
提供机构:
maas
创建时间:
2025-09-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作