CC15M-YFCC15M

Name: CC15M-YFCC15M
Creator: Hugging Face
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://huggingface.co/datasets/yxchng/cc15m_yfcc15m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是CLIP预训练数据的一个子集，包含了50万条记录用于模型训练，以及10万条记录用于模型评估。总体规模达到了1570万条记录，其中500,000条用于训练，100,000条用于评估。该数据集的任务是进行语言-图像预训练的模型训练与评估。

This dataset is a subset of CLIP pre-training data. It contains 500,000 records for model training and 100,000 records for model evaluation. The overall scale of the dataset reaches 15.7 million records in total, among which 500,000 are used for training and 100,000 are used for evaluation. The task of this dataset is to carry out the training and evaluation of language-image pre-trained models.

提供机构：

Hugging Face

搜集汇总

数据集介绍

背景与挑战

背景概述

CC15M-YFCC15M是一个包含图像和文本的多模态数据集，规模在10M到100M之间，提供15.7M行数据，涵盖多样化的URL和标题内容。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集