datablations/oscar-subsets

Name: datablations/oscar-subsets
Creator: datablations
Published: 2023-06-14 11:47:34
License: 暂无描述

Hugging Face2023-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/datablations/oscar-subsets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是English OSCAR的不同子集，使用GPT2Tokenizer测量了不同数量的tokens。这些数据用于论文《Scaling Data-Constrained Language Models》中。

提供机构：

datablations

原始信息汇总

论文引用： bibtex @article{muennighoff2023scaling, title={Scaling Data-Constrained Language Models}, author={Muennighoff, Niklas and Rush, Alexander M and Barak, Boaz and Scao, Teven Le and Piktus, Aleksandra and Tazi, Nouamane and Pyysalo, Sampo and Wolf, Thomas and Raffel, Colin}, journal={arXiv preprint arXiv:2305.16264}, year={2023} }
更多详情请访问： GitHub 仓库

5,000+

优质数据集

54 个

任务类型

进入经典数据集