CCMB

Name: CCMB
Creator: 360人工智能研究院
Published: 2023-11-08 17:45:00
License: 暂无描述

arXiv2023-11-08 更新2024-06-21 收录

下载链接：

https://github.com/yuxie11/R2D2

下载链接

链接失效反馈

官方服务：

资源简介：

CCMB是一个大规模的中文跨模态基准数据集，由360人工智能研究院创建。该数据集包含目前最大的公开预训练数据集Zero，以及五个由人工标注的下游任务数据集。Zero数据集包含2.5亿张图片和7.5亿条文本描述，通过用户点击率过滤方法从50亿条图像-文本数据中筛选得到，确保了数据的高质量和多样性。CCMB数据集主要用于视觉-语言预训练研究，旨在解决图像与文本之间的语义对齐问题，适用于图像-文本检索、匹配、生成等多种下游任务。

提供机构：

360人工智能研究院

创建时间：

2022-05-08

搜集汇总

背景与挑战

背景概述

CCMB是一个大规模中文跨模态基准数据集，由360人工智能研究院开发，包含最大的公开预训练数据集Zero（2.5亿图片和7.5亿文本）及五个人工标注下游任务数据集。它通过点击率过滤确保数据高质量和多样性，主要用于视觉-语言预训练研究，以解决图像与文本语义对齐问题，适用于检索、匹配和生成等多种任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集