【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
SkyPile-150B 综合性大规模中文数据集
收藏超神经2024-01-11 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/28906
下载链接
链接失效反馈官方服务:
资源简介:
SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外,研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。
SkyPile-150B is a comprehensive large-scale Chinese dataset specifically designed for pre-training large language models. It is derived from a large number of publicly accessible Chinese internet webpages. The dataset employs strict filtering, extensive deduplication, and thorough sensitive data filtering to ensure its quality. Additionally, researchers have utilized advanced tools such as fastText and BERT to filter out low-quality data.
创建时间:
2024-01-11
搜集汇总
数据集介绍

背景与挑战
背景概述
SkyPile-150B 是一个专为大型语言模型预训练设计的大规模中文数据集,源自中国互联网网页,并通过严格过滤、去重和敏感数据处理确保质量。该数据集包含约2.33亿个网页,总计1500亿个Token和620GB纯文本,平均每个网页超过1000个汉字,适用于自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



