five

SkyPile-150B 综合性大规模中文数据集

收藏
超神经2024-01-11 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/28906
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外,研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。

SkyPile-150B is a comprehensive large-scale Chinese dataset specifically designed for pre-training large language models. It is derived from a large number of publicly accessible Chinese internet webpages. The dataset employs strict filtering, extensive deduplication, and thorough sensitive data filtering to ensure its quality. Additionally, researchers have utilized advanced tools such as fastText and BERT to filter out low-quality data.
创建时间:
2024-01-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SkyPile-150B 是一个专为大型语言模型预训练设计的大规模中文数据集,源自中国互联网网页,并通过严格过滤、去重和敏感数据处理确保质量。该数据集包含约2.33亿个网页,总计1500亿个Token和620GB纯文本,平均每个网页超过1000个汉字,适用于自然语言处理任务。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作