five

mOSCAR

收藏
arXiv2024-06-13 更新2024-06-21 收录
下载链接:
https://oscar-project.github.io/documentation/versions/mOSCAR/
下载链接
链接失效反馈
官方服务:
资源简介:
mOSCAR是由法国国家信息与自动化研究所等机构创建的第一个大规模多语言和多模态文档级语料库,涵盖163种语言,包含315M文档、214B tokens和1.2B images。该数据集通过从Common Crawl中爬取数据,并经过一系列的过滤和评估步骤确保数据的安全性、多样性和质量。mOSCAR的创建旨在推动多语言和多模态研究,特别是在解决全球7000多种语言的mLLM研究限制问题。数据集的应用领域包括提升多语言图像-文本任务的少样本学习性能,验证了在多语言环境中训练模型的有效性。
提供机构:
法国国家信息与自动化研究所
创建时间:
2024-06-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
mOSCAR是一个大规模的多语言和多模态文档语料库,从网络爬取而来,覆盖163种语言,包含3.15亿份文档、2140亿个标记和12亿张图像。该数据集经过仔细过滤和评估,以确保其安全性、多样性和高质量,适用于多语言和多模态研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作