five

The Pile

收藏
arXiv2021-01-01 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2101.00027v1
下载链接
链接失效反馈
官方服务:
资源简介:
一个825GiB的英语文本语料库,旨在训练大规模语言模型,由22个多样的高质量子集构成,包括现有和新构建的,许多源自学术或专业资源。

An 825 GiB English text corpus designed for training large-scale language models, which consists of 22 diverse, high-quality subsets including both existing and newly constructed ones, many of which are derived from academic or professional resources.
创建时间:
2021-01-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作