five

CCMB

收藏
arXiv2023-11-08 更新2024-06-21 收录
下载链接:
https://github.com/yuxie11/R2D2
下载链接
链接失效反馈
官方服务:
资源简介:
CCMB是一个大规模的中文跨模态基准数据集,由360人工智能研究院创建。该数据集包含目前最大的公开预训练数据集Zero,以及五个由人工标注的下游任务数据集。Zero数据集包含2.5亿张图片和7.5亿条文本描述,通过用户点击率过滤方法从50亿条图像-文本数据中筛选得到,确保了数据的高质量和多样性。CCMB数据集主要用于视觉-语言预训练研究,旨在解决图像与文本之间的语义对齐问题,适用于图像-文本检索、匹配、生成等多种下游任务。
提供机构:
360人工智能研究院
创建时间:
2022-05-08
搜集汇总
背景与挑战
背景概述
CCMB是一个大规模中文跨模态基准数据集,由360人工智能研究院开发,包含最大的公开预训练数据集Zero(2.5亿图片和7.5亿文本)及五个人工标注下游任务数据集。它通过点击率过滤确保数据高质量和多样性,主要用于视觉-语言预训练研究,以解决图像与文本语义对齐问题,适用于检索、匹配和生成等多种任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作