five

Pile-BookCorpus2

收藏
魔搭社区2025-11-06 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Pile-BookCorpus2
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: Pile-BookCorpus2 license: - MIT taskTypes: - Natural Language Generation - Language Modelling mediaTypes: - Text labelTypes: - English Corpus tags: [] publisher: - EleutherAI publishDate: '2023-07-18' publishUrl: https://pile.eleuther.ai/ paperUrl: '' --- # 数据介绍 ## 简介 Pile-BookCorpus2数据集是基于The Pile项目的一部分,是一个用于语言模型的数据集。该数据集基于BookCorpus2中的大量电子书资源建成。 BookCorpus2由数千本英文图书组成,涵盖了各种题材和领域。 这个数据集可以用于训练语言模型、生成文本、文本分类等自然语言处理任务。 ## 数据内容 ### 数据说明 Pile-BookCorpus2数据集涵盖了6.1G的数据。 ## 引文 ``` @misc{conghui2022opendatalab, title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ``` ## Download dataset :modelscope-code[]{type="git"}

数据集名称: Pile-BookCorpus2 许可证: - MIT 任务类型: - 自然语言生成 - 语言建模 媒体类型: - 文本 标签类型: - 英文语料库 标签: [] 发布方: - EleutherAI 发布日期: 2023年7月18日 发布网址: https://pile.eleuther.ai/ 论文网址: 无 --- # 数据介绍 ## 简介 Pile-BookCorpus2 数据集为 The Pile 项目的组成部分,是一款面向语言模型的专用数据集。该数据集依托 BookCorpus2 中的海量电子书资源构建而成。BookCorpus2 包含数千本英文图书,覆盖各类题材与领域。本数据集可用于训练语言模型、文本生成、文本分类等多种自然语言处理任务。 ## 数据内容 ### 数据说明 Pile-BookCorpus2 数据集的数据体量达6.1吉字节(G)。 ## 引文 @misc{conghui2022opendatalab, title={OpenDataLab:以开放数据集赋能通用人工智能(AGI)}, author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin}, journal={https://opendatalab.com/}, year={2022} } ## 下载数据集 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作