OSCAR
收藏知名数据集2026-04-23 收录
下载链接:
https://oscar-project.org/
下载链接
链接失效反馈官方服务:
资源简介:
OSCAR(Open Super-large Crawled Aggregated coRpus)是一个开源的超大规模多语言网络爬取语料库,由法国Inria研究机构和ALMAnaCH团队等机构开发。该数据集包含166种语言的原始和去重文本数据,主要用于机器学习和人工智能模型的大规模预训练,特别关注低资源语言的数据支持。数据集通过高效的数据处理管道从Common Crawl网络数据中提取和分类构建而成。
提供机构:
法国Inria研究机构



