cerebras/SlimPajama-627B

Name: cerebras/SlimPajama-627B
Creator: cerebras
Published: 2023-07-07 23:13:12
License: 暂无描述

Hugging Face2023-07-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cerebras/SlimPajama-627B

下载链接

链接失效反馈

官方服务：

资源简介：

SlimPajama-627B数据集是一个经过清理和去重的版本，基于Together的RedPajama数据集。它包含了59166个jsonl文件，压缩后的大小约为895GB。该数据集主要用于训练大型语言模型，通过过滤低质量数据和重复数据，从1210B个token减少到627B个token，提供了更高质量和计算效率的数据。数据集主要包含英文文本，也有一些非英文的维基百科文件。数据集的结构为jsonl文件，每个文件包含文本和元数据。数据集的创建过程使用了MinHashLSH技术进行去重。数据集的数据来源包括Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia和StackExchange。数据集的许可证取决于所使用的数据子集的许可证。

The SlimPajama-627B dataset is a cleaned and deduplicated variant derived from Together's RedPajama dataset. It contains 59,166 jsonl files, with a compressed size of roughly 895 GB. This dataset is primarily intended for training large language models (LLMs). By filtering out low-quality and duplicate data, it reduces the total token count from 1210B to 627B, thus providing higher-quality data with enhanced computational efficiency. The dataset predominantly features English text, alongside some non-English Wikipedia documents. Its structure follows the jsonl format, where each individual file houses both text content and corresponding metadata. The deduplication process during dataset creation employed MinHashLSH technology. The dataset's data sources encompass Common Crawl, C4, GitHub, Books, ArXiv, Wikipedia, and StackExchange. The licensing terms of the dataset vary based on the licenses of the respective data subsets included.

提供机构：

cerebras

原始信息汇总

数据集概述

名称： SlimPajama-627B

任务类别： 文本生成

语言： 英语

数据集大小： 压缩后约895GB

数据集结构： 包含59166个jsonl文件，每个文件包含文本和元数据信息。

数据来源： 清理和去重后的RedPajama数据集。

数据集特点：

去重程度：广泛
数据质量：高
计算效率：高

数据集创建： 通过MinHashLSH技术对RedPajama数据集进行清理和去重。

许可证： 请参考各数据子集的许可证。

数据集详细信息

数据集比较

数据源	令牌数	开源	精选数据源	去重级别
SlimPajama	627B	是	是	广泛
RedPajama	1.21T	是	是	部分

文档低长度过滤率

数据源	过滤率
Commoncrawl	0.02%
C4	4.70%
GitHub	0.00%
Books	0.00%
ArXiv	0.62%
Wikpedia	0.00%
StackExchange	0.32%
Total	1.86%

数据源字节去重率

数据源	去重率
Commoncrawl	63.76%
C4	6.85%
GitHub	46.16%
Books	2.01%
ArXiv	0.06%
Wikipedia	2.24%
StackExchange	0.20%
Total	49.60%

数据源比例

数据源	SlimPajama	RedPajama
Commoncrawl	52.2%	72.6%
C4	26.7%	14.4%
GitHub	5.2%	4.9%
Books	4.2%	2.1%
ArXiv	4.6%	2.3%
Wikipedia	3.8%	2.0%
StackExchange	3.3%	1.7%

数据集使用

下载方式： 使用Hugging Face datasets库进行下载。

python from datasets import load_dataset ds = load_dataset("cerebras/SlimPajama-627B")

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，数据集的清洁与去重对于模型训练至关重要。SlimPajama-627B数据集的构建，是通过采用MinHashLSH算法对原有RedPajama数据集进行深度清洗和去重，移除了49.6%的重复字节，从而将数据集规模从1.2万亿token精简至627亿token。这一过程不仅提高了数据的信息密度，也为大规模语言模型的训练提供了高质量的数据基础。

特点

SlimPajama-627B数据集的特点在于其经过精心筛选和去重处理，确保了数据的高质量和低冗余性。它是一个多语料库的开放源数据集，以英文为主，包含了少量的非英文文件。该数据集采用了jsonl文件格式，每个文件包含了文本内容和元数据信息，便于处理和使用。此外，数据集还提供了验证集和测试集，各有5亿token，且经过了去污染处理，以避免训练数据的泄露。

使用方法

使用SlimPajama-627B数据集非常便捷，用户可以通过Hugging Face的datasets库直接加载该数据集。加载后，用户可以根据自己的需求对数据进行进一步的处理和分析，例如用于大规模语言模型的训练或其他自然语言处理任务。数据集的开放性和高质量，使得它在学术研究和工业应用中具有广泛的应用前景。

背景与挑战

背景概述

SlimPajama-627B数据集，由Cerebras公司于2023年发布，是一份经过深度清洗和去重的开源数据集，专为训练大型语言模型而设计。该数据集源于Together公司创建的1.2万亿个标记的RedPajama数据集，经过筛选出低质量数据和重复内容后，将数据量从1.21万亿缩减至6270亿个标记。Cerebras团队通过自主研发的工具，成功实现了对万亿级标记数据集的MinHashLSH去重，显著提升了数据质量与计算效率。该数据集的发布，不仅提供了高质量的训练资源，也为开源社区贡献了新的数据处理工具，对于大型语言模型的研究与开发具有重要意义。

当前挑战

在构建SlimPajama-627B数据集过程中，研究团队面临着两大挑战：一是如何高效地清洗和去重庞大的数据集，二是如何在保证数据质量的同时，避免因数据重复而导致的计算资源浪费。针对这些挑战，Cerebras团队优化了现有的去重算法，并开发了一套适用于分布式、多线程、内存高效的MinHashLSH去重基础设施。这些创新技术的应用，使得SlimPajama-627B数据集在解决领域问题如文本生成等任务上，展现出更优的性能与效率。

常用场景

经典使用场景

在自然语言处理领域，文本生成任务占据着重要的地位。SlimPajama-627B数据集，作为一份经过深度清洗和去重的开源文本数据集，其经典的使用场景主要集中于大型语言模型的训练。通过该数据集，研究者能够训练出在质量和效率上更为卓越的语言模型，从而提升文本生成、文本理解等任务的性能。

实际应用

在实际应用层面，SlimPajama-627B数据集的应用场景广泛。它不仅能够服务于学术研究，还能为工业界的自然语言处理任务提供高效的数据支持，例如搜索引擎的优化、智能客服系统的改进以及内容审核等。该数据集的高质量和高效性使得相关应用能够更加精准地理解和响应用户需求。

衍生相关工作

基于SlimPajama-627B数据集，已经衍生出了一系列相关工作。这些工作不仅包括对数据集本身的进一步处理和优化，还涵盖了利用该数据集进行的语言模型训练和性能评估研究。这些研究进一步推动了自然语言处理领域的发展，促进了高质量语言模型的广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集