five

OSCAR

收藏
知名数据集2026-04-23 收录
下载链接:
https://oscar-project.org/
下载链接
链接失效反馈
官方服务:
资源简介:
OSCAR(Open Super-large Crawled Aggregated coRpus)是一个开源的超大规模多语言网络爬取语料库,由法国Inria研究机构和ALMAnaCH团队等机构开发。该数据集包含166种语言的原始和去重文本数据,主要用于机器学习和人工智能模型的大规模预训练,特别关注低资源语言的数据支持。数据集通过高效的数据处理管道从Common Crawl网络数据中提取和分类构建而成。
提供机构:
法国Inria研究机构
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作