WuDaoMM
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WuDaoMM
下载链接
链接失效反馈官方服务:
资源简介:
Wutaomm是北京智源人工智能研究院wutaocalpora开源数据集的一部分。去年,我们开源了全球最大的中文文本数据集,其中包括5TB的预训练文本数据。今年开源的wutaomm是图像和文本的多模态预训练数据。完整的数据集包含6.5亿对图像和文本。它为大规模的中国多模态预训练模型如Wenlan和Cogview提供了数据支持。数据集包含几千万对的强相关数据和6亿对弱相关数据。为了使研究人员更容易下载和使用,wudoomm-base的基本版本是开放的。该数据集由强相关数据组成,这些数据是根据类别以平衡的方式提取的。如果研究人员有完整的数据需求,他们可以通过data@baai.ac.cn给我们发送电子邮件。五道门-基地包含19大类,分别是: 能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等。类别数据大约是70,000到400,000。
提供机构:
OpenDataLab
创建时间:
2023-03-22



