nthngdy/oscar-small
收藏Hugging Face2023-03-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nthngdy/oscar-small
下载链接
链接失效反馈官方服务:
资源简介:
OSCAR(Open Super-large Crawled ALMAnaCH coRpus)是一个巨大的多语言语料库,通过对Common Crawl语料库进行语言分类和过滤而获得,使用了goclassy架构。数据以原始和去重形式按语言分发,涵盖了166种语言。该数据集主要用于预训练语言模型和词表示。
提供机构:
nthngdy
原始信息汇总
数据集概述
本数据集是OSCAR数据集的加工版本,使用本数据集在法律上等同于使用OSCAR数据集。数据集的原始数据收集工作并非由本数据集提供者完成,因此所有数据来源均指向原始的OSCAR数据集。



