datablations/oscar-subsets
收藏Hugging Face2023-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datablations/oscar-subsets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是English OSCAR的不同子集,使用GPT2Tokenizer测量了不同数量的tokens。这些数据用于论文《Scaling Data-Constrained Language Models》中。
提供机构:
datablations
原始信息汇总
数据集概述
- 数据集名称: English OSCAR 的各个子集
- 数据集来源: English OSCAR
- 数据集内容: 包含不同数量的标记,使用 GPT2Tokenizer 进行测量
- 数据集用途: 用于研究论文 Scaling Data-Constrained Language Models
- 联系方式: Niklas Muennighoff
- 许可证: CC0-1.0
- 语言: 英语
数据集详细信息
-
论文引用: bibtex @article{muennighoff2023scaling, title={Scaling Data-Constrained Language Models}, author={Muennighoff, Niklas and Rush, Alexander M and Barak, Boaz and Scao, Teven Le and Piktus, Aleksandra and Tazi, Nouamane and Pyysalo, Sampo and Wolf, Thomas and Raffel, Colin}, journal={arXiv preprint arXiv:2305.16264}, year={2023} }
-
更多详情请访问: GitHub 仓库



