five

datablations/oscar-subsets

收藏
Hugging Face2023-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datablations/oscar-subsets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是English OSCAR的不同子集,使用GPT2Tokenizer测量了不同数量的tokens。这些数据用于论文《Scaling Data-Constrained Language Models》中。
提供机构:
datablations
原始信息汇总

数据集概述

数据集详细信息

  • 论文引用: bibtex @article{muennighoff2023scaling, title={Scaling Data-Constrained Language Models}, author={Muennighoff, Niklas and Rush, Alexander M and Barak, Boaz and Scao, Teven Le and Piktus, Aleksandra and Tazi, Nouamane and Pyysalo, Sampo and Wolf, Thomas and Raffel, Colin}, journal={arXiv preprint arXiv:2305.16264}, year={2023} }

  • 更多详情请访问: GitHub 仓库

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作