WuDaoMM
收藏arXiv2022-05-01 更新2024-07-30 收录
下载链接:
https://data.wudaoai.cn
下载链接
链接失效反馈官方服务:
资源简介:
一个包含超过6.5亿对图像-文本配对的大型多模态语料库,其中约6亿对数据来自图像和标题弱相关的多个网页,另外5000万对强相关的图像-文本配对来自一些高质量的图形网站。
A large-scale multimodal corpus containing over 650 million image-text pairs, of which approximately 600 million pairs are sourced from multiple webpages where images and their associated titles are weakly correlated, while the remaining 50 million strongly correlated image-text pairs are obtained from several high-quality graphic websites.
创建时间:
2022-03-22
搜集汇总
背景与挑战
背景概述
WuDaoMM是一个大规模多模态数据集,包含超过6.5亿对图像-文本配对。其中,约6亿对数据来自网页,图像和标题弱相关;另外5000万对来自高质量图形网站,图像和文本强相关。该数据集以大规模和多样化数据来源为特点,适用于多模态学习和相关研究。
以上内容由遇见数据集搜集并总结生成



