genggui001/gg_zh_v1_550B
收藏Hugging Face2024-01-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/genggui001/gg_zh_v1_550B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集整合了多个子数据集,包括CCI-Data、SkyPile-150B、TeleChat-PTD等,经过minhash去重处理后,形成了550B的中文预训练语料。该数据集适用于文本生成任务,语言为中文,数据规模在100B到1T之间。
提供机构:
genggui001
原始信息汇总
数据集概述
任务类别
- 文本生成
语言
- 中文
数据规模
- 100B<n<1T
数据集列表
- CCI-Data
- SkyPile-150B
- TeleChat-PTD
- WebText-cn
- WuDaoCorpus2.0
- wangan
- yayi2_pretrain_data
数据处理
- 整合并使用minhash去重,最终得到550B中文预训练语料



