mOSCAR

Name: mOSCAR
Creator: 法国国家信息与自动化研究所
Published: 2024-06-13 08:13:32
License: 暂无描述

arXiv2024-06-13 更新2024-06-21 收录

下载链接：

https://oscar-project.github.io/documentation/versions/mOSCAR/

下载链接

链接失效反馈

官方服务：

资源简介：

mOSCAR是由法国国家信息与自动化研究所等机构创建的第一个大规模多语言和多模态文档级语料库，涵盖163种语言，包含315M文档、214B tokens和1.2B images。该数据集通过从Common Crawl中爬取数据，并经过一系列的过滤和评估步骤确保数据的安全性、多样性和质量。mOSCAR的创建旨在推动多语言和多模态研究，特别是在解决全球7000多种语言的mLLM研究限制问题。数据集的应用领域包括提升多语言图像-文本任务的少样本学习性能，验证了在多语言环境中训练模型的有效性。

提供机构：

法国国家信息与自动化研究所

创建时间：

2024-06-13

搜集汇总

数据集介绍