five

SkyPile-150B 综合性大规模中文数据集|预训练数据集数据集|中文语言模型数据集

收藏
超神经2024-01-11 更新2024-05-15 收录
预训练数据集
中文语言模型
下载链接:
https://hyper.ai/cn/datasets/28906
下载链接
链接失效反馈
资源简介:
SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外,研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。
创建时间:
2024-01-11
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集