Conceptual Captions Dataset (CC12M) 概念数据集

超神经2024-02-06 更新2024-05-15 收录

下载链接：

https://hyper.ai/cn/datasets/14682

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由谷歌于 2018 年发布，数据集共包括 330 万对图像-标题对。团队通过创建自动 pipeline，从数十亿网页中提取，过滤和处理候选图像和文字对。

This dataset was released by Google in 2018, containing a total of 3.3 million image-caption pairs. The team developed an automated pipeline to extract, filter, and process candidate image-text pairs from billions of web pages.

创建时间：

2021-03-02

搜集汇总

数据集介绍

背景与挑战

背景概述

Conceptual Captions Dataset (CC12M) 是谷歌于2018年发布的一个概念数据集，包含约330万对从网页自动提取的图像-标题对，其中训练集有超过331万对，验证集有1.5万对，标题平均包含10.3个token。该数据集旨在支持自动图像标题生成任务，并附有相关论文介绍其清洗和超类化处理过程。

以上内容由遇见数据集搜集并总结生成