Pile-BookCorpus2
收藏魔搭社区2025-11-06 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/Pile-BookCorpus2
下载链接
链接失效反馈官方服务:
资源简介:
displayName: Pile-BookCorpus2
license:
- MIT
taskTypes:
- Natural Language Generation
- Language Modelling
mediaTypes:
- Text
labelTypes:
- English Corpus
tags: []
publisher:
- EleutherAI
publishDate: '2023-07-18'
publishUrl: https://pile.eleuther.ai/
paperUrl: ''
---
# 数据介绍
## 简介
Pile-BookCorpus2数据集是基于The Pile项目的一部分,是一个用于语言模型的数据集。该数据集基于BookCorpus2中的大量电子书资源建成。
BookCorpus2由数千本英文图书组成,涵盖了各种题材和领域。
这个数据集可以用于训练语言模型、生成文本、文本分类等自然语言处理任务。
## 数据内容
### 数据说明
Pile-BookCorpus2数据集涵盖了6.1G的数据。
## 引文
```
@misc{conghui2022opendatalab,
title={OpenDataLab: Empowering General Artificial Intelligence with Open Datasets},
author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin},
journal={https://opendatalab.com/},
year={2022}
}
```
## Download dataset
:modelscope-code[]{type="git"}
数据集名称: Pile-BookCorpus2
许可证:
- MIT
任务类型:
- 自然语言生成
- 语言建模
媒体类型:
- 文本
标签类型:
- 英文语料库
标签: []
发布方:
- EleutherAI
发布日期: 2023年7月18日
发布网址: https://pile.eleuther.ai/
论文网址: 无
---
# 数据介绍
## 简介
Pile-BookCorpus2 数据集为 The Pile 项目的组成部分,是一款面向语言模型的专用数据集。该数据集依托 BookCorpus2 中的海量电子书资源构建而成。BookCorpus2 包含数千本英文图书,覆盖各类题材与领域。本数据集可用于训练语言模型、文本生成、文本分类等多种自然语言处理任务。
## 数据内容
### 数据说明
Pile-BookCorpus2 数据集的数据体量达6.1吉字节(G)。
## 引文
@misc{conghui2022opendatalab,
title={OpenDataLab:以开放数据集赋能通用人工智能(AGI)},
author={Conghui He, Wei Li, Zhenjiang Jin, Bin Wang, Chao Xu, Dahua Lin},
journal={https://opendatalab.com/},
year={2022}
}
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-11



