mittagessen/oscar_subset

Name: mittagessen/oscar_subset
Creator: mittagessen
Published: 2024-11-10 20:07:55
License: 暂无描述

Hugging Face2024-11-10 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/mittagessen/oscar_subset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是OSCAR 2023.1的子集，通过从母语料库中每种语言的前30个JSONL文件中随机抽取50%的文档，并将每个文档截断为前2048个Unicode代码点生成。因此，它包含OSCAR中的所有语言，但与较大的语言相比，较少使用的语言被大幅过度采样。数据集主要用于预训练多语言小型语言模型，如ByteLlama。

A subset of OSCAR 2023.1, obtained by randomly sampling 50% of documents from the mother corpus and truncating each document to the first 2048 Unicode code points, containing all OSCAR languages and primarily intended for pretraining multilingual tiny language models.

提供机构：

mittagessen

5,000+

优质数据集

54 个

任务类型

进入经典数据集