five

Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集

收藏
hugging_face2023-12-07 更新2024-03-04 收录
自然语言处理
语言模型预训练
下载链接:
https://hf-mirror.com/datasets/Skywork/SkyPile-150B
下载链接
链接失效反馈
资源简介:
SkyPile-150B是一个专门为大型语言模型预训练设计的大规模中文数据集,来源于广泛的公开中文互联网网页。通过严格的过滤、去重和敏感数据过滤,确保了数据质量。数据集包含约233百万个独特的网页,每个网页平均包含超过1000个中文字符,总计约1500亿个标记和620GB的纯文本数据。
提供机构:
Skywork
原始信息汇总

SkyPile-150B 数据集概述

数据集简介

SkyPile-150B 是一个专为大型语言模型预训练设计的中文大型数据集。该数据集从广泛的公开中文互联网网页中提取,经过严格的过滤、去重和敏感数据筛选,确保数据质量。使用fastText和BERT等工具过滤低质量数据。

数据集规模

  • 包含约23300万个独特网页。
  • 每个网页平均包含超过1000个中文字符。
  • 总计约1500亿个tokens和620GB的纯文本数据。

语言

数据集完全由中文数据组成。

数据字段解释

  • text: 从每个页面提取并处理过的清洗文本。

数据集安全性

使用超过200万条规则和BERT-base模型检测并移除数据集中的敏感信息。

敏感信息与偏见

数据集可能包含敏感信息,如电子邮件地址、电话号码或IP地址,已通过去重和低质量过滤尽力减少此类信息。互联网数据可能包含毒性或偏见,已通过特定URL过滤方法尝试缓解,但建议用户保持警惕。

许可证

使用SkyPile数据集需遵守Skywork社区许可证,支持商业用途。如用于商业目的,还需遵守Apache2.0许可证的条款和条件。

AI搜集汇总
数据集介绍
main_image_url
构建方式
SkyPile-150B数据集的构建,旨在为大型语言模型预训练提供全面且大规模的中文数据资源。该数据集采集自公开可访问的中文互联网网页,经过严格的筛选、大量重复数据的删除以及敏感数据的过滤,以确保数据质量。利用fastText与BERT等先进工具,对低质量数据进行了进一步的筛选。
特点
该数据集的特点在于其庞大的规模和质量把控。包含约2.33亿个独特的网页,平均每页超过1000个汉字,总计约1500亿个token,数据量达到620GB。数据集全部由中文构成,针对互联网上的敏感信息及偏见,通过特定URL过滤方法等手段尽量降低其影响。
使用方法
在使用SkyPile-150B数据集时,用户需遵守Skywork社区许可协议。该数据集支持商业用途,但商业使用者需同时遵守Skywork社区许可和Apache2.0协议。用户在使用过程中,应注意数据中可能存在的敏感信息,并在模型开发与应用中保持警觉性,以避免偏见和不当使用。
背景与挑战
背景概述
SkyPile-150B是一个旨在为大型语言模型预训练而设计的全面、大规模的中文数据集。该数据集脱胎于众多公开可访问的中文互联网网页,通过严格的过滤、大量的去重以及敏感数据的彻底筛选,确保了数据的质量。此数据集的构建,不仅展现了数据科学领域在处理大规模文本数据方面的技术进步,也体现了对高质量网络数据资源开放共享的承诺,对推动自然语言处理领域的发展具有重要意义。SkyPile-150B的公开发布部分包含约2.33亿个独特的网页,平均每个网页超过1000个中文字符,总计约1500亿个token和620GB的纯文本数据。该数据集的创建,源于Skywork团队的努力,并在2023年通过学术论文正式向学术界和业界介绍。
当前挑战
尽管SkyPile-150B数据集在构建过程中采用了超过200万条规则和BERT-base模型来识别并移除敏感数据,但鉴于其来源于公开的网络页面,数据集中可能仍然包含如电子邮件地址、电话号码或IP地址等敏感信息。此外,互联网上充斥着潜在的有毒或偏见数据,尽管采用了特定的URL过滤方法来减轻这一问题,但用户在使用该数据集时仍需保持警惕。构建此类大规模数据集的挑战不仅在于数据的质量控制,还包括确保数据的多样性和公正性,避免偏见信息的传播,这对于促进健康的人工智能发展环境至关重要。
常用场景
经典使用场景
在自然语言处理领域,SkyPile-150B数据集作为一项重要的资源,其最经典的使用场景在于大规模语言模型的预训练。该数据集以其庞大的规模和高质量的中文文本,为语言模型提供了丰富的学习素材,从而助力模型在理解和生成自然语言方面达到更高的精确度和流畅度。
衍生相关工作
基于SkyPile-150B数据集,研究者们衍生出了一系列经典工作,如构建了高性能的中文语言模型,开发出了具有创新性的自然语言处理应用。这些成果不仅丰富了中文自然语言处理领域的理论研究,也为实际应用场景中的技术落地提供了强有力的支持。
数据集最近研究
最新研究方向
在自然语言处理领域,大规模语言模型的预训练是当前研究的热点。SkyPile-150B数据集以其庞大的规模和高质量的数据,为该领域的研究提供了新的动力。该数据集专门为大型语言模型的预训练设计,通过先进的过滤和去重技术,确保了数据的质量和安全性。目前,基于SkyPile-150B的数据集研究主要集中在模型预训练的效果优化、敏感信息过滤以及模型在特定领域的应用研究等方面。该数据集的开源发布,不仅提升了研究资源的可及性,也为大型语言模型在多领域的应用推广提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

BC-MRI-SEG

BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录