xnywn/pile

Name: xnywn/pile
Creator: xnywn
Published: 2023-09-06 11:49:54
License: 暂无描述

Hugging Face2023-09-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/xnywn/pile

下载链接

链接失效反馈

官方服务：

资源简介：

https://huggingface.co/datasets/monology/pile

该数据集为由EleutherAI开发的开源大规模语言建模语料库The Pile，总容量达825吉字节（GiB），涵盖22个不同领域的超80万个文本样本，包含书籍、公开网页、学术论文等多种类型的文本内容，可用于大语言模型（Large Language Model）的训练与相关研究。本数据集托管于Hugging Face数据集平台，数据集仓库标识为monology/pile。

提供机构：

xnywn

原始信息汇总

数据集概述

数据集名称

名称：pile

数据集提供者

提供者：monology

数据集描述

描述：pile 数据集是一个大规模的文本数据集，旨在支持自然语言处理的研究和应用。

数据集用途

用途：pile 数据集主要用于训练和评估自然语言处理模型，包括但不限于语言模型、文本分类、信息检索等任务。

数据集结构

结构：pile 数据集包含多种类型的文本数据，涵盖了书籍、网页、代码等多种来源。

数据集大小

大小：pile 数据集的总大小约为 800 GB。

数据集格式

格式：pile 数据集以文本文件的形式存储，支持多种常见的文本格式。

数据集下载

下载：pile 数据集可以通过 Hugging Face 平台进行下载和访问。

数据集许可证

许可证：pile 数据集遵循特定的使用许可协议，用户需遵守相关条款。

5,000+

优质数据集

54 个

任务类型

进入经典数据集