OSCAR

Name: OSCAR
Creator: 法国Inria研究机构
License: 暂无描述

知名数据集2026-04-23 收录

下载链接：

https://oscar-project.org/

下载链接

链接失效反馈

官方服务：

资源简介：

OSCAR（Open Super-large Crawled Aggregated coRpus）是一个开源的超大规模多语言网络爬取语料库，由法国Inria研究机构和ALMAnaCH团队等机构开发。该数据集包含166种语言的原始和去重文本数据，主要用于机器学习和人工智能模型的大规模预训练，特别关注低资源语言的数据支持。数据集通过高效的数据处理管道从Common Crawl网络数据中提取和分类构建而成。

提供机构：

法国Inria研究机构

5,000+

优质数据集

54 个

任务类型

进入经典数据集