Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集

hugging_face2023-12-07 更新2024-03-04 收录

自然语言处理

语言模型预训练

下载链接：

https://hf-mirror.com/datasets/Skywork/SkyPile-150B

下载链接

链接失效反馈

资源简介：

SkyPile-150B是一个专门为大型语言模型预训练设计的大规模中文数据集，来源于广泛的公开中文互联网网页。通过严格的过滤、去重和敏感数据过滤，确保了数据质量。数据集包含约233百万个独特的网页，每个网页平均包含超过1000个中文字符，总计约1500亿个标记和620GB的纯文本数据。

提供机构：

Skywork

原始信息汇总

SkyPile-150B 数据集概述

数据集简介

SkyPile-150B 是一个专为大型语言模型预训练设计的中文大型数据集。该数据集从广泛的公开中文互联网网页中提取，经过严格的过滤、去重和敏感数据筛选，确保数据质量。使用fastText和BERT等工具过滤低质量数据。

数据集规模

包含约23300万个独特网页。
每个网页平均包含超过1000个中文字符。
总计约1500亿个tokens和620GB的纯文本数据。

语言

数据集完全由中文数据组成。

数据字段解释

text: 从每个页面提取并处理过的清洗文本。

数据集安全性

使用超过200万条规则和BERT-base模型检测并移除数据集中的敏感信息。

敏感信息与偏见

数据集可能包含敏感信息，如电子邮件地址、电话号码或IP地址，已通过去重和低质量过滤尽力减少此类信息。互联网数据可能包含毒性或偏见，已通过特定URL过滤方法尝试缓解，但建议用户保持警惕。

许可证

使用SkyPile数据集需遵守Skywork社区许可证，支持商业用途。如用于商业目的，还需遵守Apache2.0许可证的条款和条件。

AI搜集汇总

数据集介绍

构建方式

SkyPile-150B数据集的构建，旨在为大型语言模型预训练提供全面且大规模的中文数据资源。该数据集采集自公开可访问的中文互联网网页，经过严格的筛选、大量重复数据的删除以及敏感数据的过滤，以确保数据质量。利用fastText与BERT等先进工具，对低质量数据进行了进一步的筛选。

特点

该数据集的特点在于其庞大的规模和质量把控。包含约2.33亿个独特的网页，平均每页超过1000个汉字，总计约1500亿个token，数据量达到620GB。数据集全部由中文构成，针对互联网上的敏感信息及偏见，通过特定URL过滤方法等手段尽量降低其影响。

使用方法

在使用SkyPile-150B数据集时，用户需遵守Skywork社区许可协议。该数据集支持商业用途，但商业使用者需同时遵守Skywork社区许可和Apache2.0协议。用户在使用过程中，应注意数据中可能存在的敏感信息，并在模型开发与应用中保持警觉性，以避免偏见和不当使用。

背景与挑战

背景概述

SkyPile-150B是一个旨在为大型语言模型预训练而设计的全面、大规模的中文数据集。该数据集脱胎于众多公开可访问的中文互联网网页，通过严格的过滤、大量的去重以及敏感数据的彻底筛选，确保了数据的质量。此数据集的构建，不仅展现了数据科学领域在处理大规模文本数据方面的技术进步，也体现了对高质量网络数据资源开放共享的承诺，对推动自然语言处理领域的发展具有重要意义。SkyPile-150B的公开发布部分包含约2.33亿个独特的网页，平均每个网页超过1000个中文字符，总计约1500亿个token和620GB的纯文本数据。该数据集的创建，源于Skywork团队的努力，并在2023年通过学术论文正式向学术界和业界介绍。

当前挑战

尽管SkyPile-150B数据集在构建过程中采用了超过200万条规则和BERT-base模型来识别并移除敏感数据，但鉴于其来源于公开的网络页面，数据集中可能仍然包含如电子邮件地址、电话号码或IP地址等敏感信息。此外，互联网上充斥着潜在的有毒或偏见数据，尽管采用了特定的URL过滤方法来减轻这一问题，但用户在使用该数据集时仍需保持警惕。构建此类大规模数据集的挑战不仅在于数据的质量控制，还包括确保数据的多样性和公正性，避免偏见信息的传播，这对于促进健康的人工智能发展环境至关重要。

常用场景

经典使用场景

在自然语言处理领域，SkyPile-150B数据集作为一项重要的资源，其最经典的使用场景在于大规模语言模型的预训练。该数据集以其庞大的规模和高质量的中文文本，为语言模型提供了丰富的学习素材，从而助力模型在理解和生成自然语言方面达到更高的精确度和流畅度。

衍生相关工作

基于SkyPile-150B数据集，研究者们衍生出了一系列经典工作，如构建了高性能的中文语言模型，开发出了具有创新性的自然语言处理应用。这些成果不仅丰富了中文自然语言处理领域的理论研究，也为实际应用场景中的技术落地提供了强有力的支持。

数据集最近研究

最新研究方向

在自然语言处理领域，大规模语言模型的预训练是当前研究的热点。SkyPile-150B数据集以其庞大的规模和高质量的数据，为该领域的研究提供了新的动力。该数据集专门为大型语言模型的预训练设计，通过先进的过滤和去重技术，确保了数据的质量和安全性。目前，基于SkyPile-150B的数据集研究主要集中在模型预训练的效果优化、敏感信息过滤以及模型在特定领域的应用研究等方面。该数据集的开源发布，不仅提升了研究资源的可及性，也为大型语言模型在多领域的应用推广提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

PartNet

我们介绍了PartNet: 一个一致的、大规模的三维对象数据集，用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例，超过26,671个3D模型，涵盖24个对象类别。该数据集支持并充当许多任务的催化剂，例如形状分析，动态3D场景建模和仿真，可承受分析等。使用我们的数据集，我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割，分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试，用于细粒度语义分割，并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法，并证明了其优于现有方法的性能。

OpenDataLab 收录

Other-Animals-10

该数据集包含103张图像，每张图像对应一个动物标签，标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集，用于训练模型。

huggingface 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录