five

pile

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/pile?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
The Pile是一个多元化的开源语言建模数据集,规模达825 GiB,由22个高质量的小型数据集组合而成。它主要用于文本生成和掩码填充等任务,并支持语言建模和掩码语言建模。该数据集包含英文文本,并提供多种数据子集,例如Enron邮件、欧洲议会语料、Free Law、Hacker News、NIH Exporter、PubMed、PubMed Central、Ubuntu IRC、USPTO和GitHub等。每个子集包含文本内容和元数据,元数据包括来源、ID、作者等信息。数据集遵循特定的许可协议,例如PubMed Central采用MIT许可证。它提供标准化数据操作,方便用户进行数据分析和建模。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作