ccss4/openwebtext2
收藏Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ccss4/openwebtext2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为The Pile,是一个包含800GB多样化文本的语言建模数据集,旨在为语言模型提供丰富的训练材料。
该数据集名为The Pile,是一个包含800GB多样化文本的语言建模数据集,旨在为语言模型提供丰富的训练材料。
提供机构:
ccss4
原始信息汇总
数据集概述
数据集名称
- 名称: The Pile
数据集大小
- 大小: 800GB
数据集内容
- 内容: Diverse Text for Language Modeling
数据集出版物
- 出版物: arXiv preprint arXiv:2101.00027
数据集发布年份
- 发布年份: 2020
数据集作者
- 作者: Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor
数据集许可证
- 许可证: MIT



