five

nthngdy/oscar-small

收藏
Hugging Face2023-03-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nthngdy/oscar-small
下载链接
链接失效反馈
官方服务:
资源简介:
OSCAR(Open Super-large Crawled ALMAnaCH coRpus)是一个巨大的多语言语料库,通过对Common Crawl语料库进行语言分类和过滤而获得,使用了goclassy架构。数据以原始和去重形式按语言分发,涵盖了166种语言。该数据集主要用于预训练语言模型和词表示。
提供机构:
nthngdy
原始信息汇总

数据集概述

本数据集是OSCAR数据集的加工版本,使用本数据集在法律上等同于使用OSCAR数据集。数据集的原始数据收集工作并非由本数据集提供者完成,因此所有数据来源均指向原始的OSCAR数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作