google-research-datasets/conceptual_12m

Name: google-research-datasets/conceptual_12m
Creator: google-research-datasets
Published: 2024-01-18 09:31:48
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google-research-datasets/conceptual_12m

下载链接

链接失效反馈

官方服务：

资源简介：

Conceptual 12M（CC12M）是一个包含1200万张图像-文本对的数据集，专门用于视觉和语言预训练。其数据收集管道是Conceptual Captions 3M（CC3M）的宽松版本。数据集不默认下载图像，而是提供图像的URL。每个数据实例包括一个图像URL和对应的文字描述，所有描述均为英文。数据集的创建过程与CC3M共享相同的管道，但放宽了一些处理步骤。数据集的许可证允许自由使用，但建议承认Google为数据源。

Conceptual 12M (CC12M) is a dataset consisting of 12 million image-text pairs, specifically dedicated to vision-and-language pre-training. Its data collection pipeline is a relaxed variant of Conceptual Captions 3M (CC3M). Instead of downloading images by default, the dataset only provides the URLs of the images. Each data instance includes an image URL and its corresponding textual description, and all descriptions are in English. The dataset creation process shares the same pipeline as CC3M, but relaxes some processing steps. The dataset's license permits free usage, while it is recommended to acknowledge Google as the original data source.

提供机构：

google-research-datasets

原始信息汇总

数据集概述

数据集摘要

Conceptual 12M (CC12M) 是一个包含1200万对图像-文本对的数据集，专门用于视觉和语言预训练。其数据收集流程是Conceptual Captions 3M (CC3M)的一个宽松版本。

数据集结构

数据实例

每个实例代表一个带有描述的图像：

json { "image_url": "http://lh6.ggpht.com/-IvRtNLNcG8o/TpFyrudaT6I/AAAAAAAAM6o/_11MuAAKalQ/IMG_3422.JPG?imgmax=800", "caption": "a very typical bus station" }

数据字段

image_url: 用于下载图像的静态URL。
caption: 图像的文本描述。

数据分割

数据集仅包含训练数据，共有12423374条记录。

数据集创建

数据收集和规范化

从论文中提取的数据收集和规范化步骤包括：

图像过滤：最大尺寸比设置为2.5，保留大于400像素的JPEG图像，排除触发色情检测器的图像。
文本过滤：允许3到256个单词的alt-text，排除没有名词或没有限定词的候选，允许没有介词的候选，最大单词重复比设置为0.2。
文本处理：不进行超名词化或数字替换，仅对人物名称进行替换以保护隐私。

注释过程

注释与图像一起通过自动管道提取。

个人和敏感信息

对人物名称进行替换以保护隐私，使用Google Cloud Natural Language APIs检测并替换为特殊标记<PERSON>。

数据集使用注意事项

社会影响

[更多信息待补充]

偏见讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

Soravit Changpinyo, Piyush Sharma, Nan Ding 和 Radu Soricut。

许可信息

数据集可自由用于任何目的，但建议对Google LLC作为数据源给予认可。数据集按“原样”提供，不附带任何明示或暗示的保证。Google对使用该数据集造成的任何直接或间接损害不承担任何责任。

引用信息

bibtex @inproceedings{changpinyo2021cc12m, title = {{Conceptual 12M}: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts}, author = {Changpinyo, Soravit and Sharma, Piyush and Ding, Nan and Soricut, Radu}, booktitle = {CVPR}, year = {2021}, }

搜集汇总

数据集介绍

构建方式

Conceptual 12M（CC12M）数据集的构建基于Conceptual Captions 3M（CC3M）的流程，但对其进行了一定程度的放松。具体而言，图像过滤方面，最大尺寸比例从2放宽至2.5，同时保留了JPEG格式且尺寸大于400像素的图像，并继续排除触发色情检测器的图像。文本过滤方面，允许3至256个单词的alt-text，放宽了对名词和限定词的要求，并去除了对高独特词比率和词大写的限制。此外，数据集未进行超名词化或数字替换，仅在必要时对人物名称进行了替换以保护隐私。

特点

Conceptual 12M数据集包含1200万对图像-文本对，专为视觉与语言预训练设计。其特点在于对原始alt-text的保留，仅在必要时进行人物名称替换，以确保数据的原始性和隐私保护。数据集的规模和多样性使其适用于图像描述任务的模型训练，特别是在处理长尾视觉概念时表现出色。

使用方法

使用Conceptual 12M数据集时，用户需通过提供的URL下载图像。数据集默认不下载图像，而是提供图像的URL。用户可通过Python代码批量下载图像，并将其与文本描述配对进行模型训练。数据集适用于图像描述任务，支持多线程下载以提高效率。

背景与挑战

背景概述

Conceptual 12M（CC12M）是由Google Research团队于2021年创建的一个大规模图像-文本对数据集，旨在推动视觉与语言预训练技术的发展。该数据集包含了1200万对图像和文本描述，主要用于图像字幕生成任务。CC12M的构建基于Conceptual Captions 3M（CC3M）的数据收集流程，但对其进行了一定程度的放松，以扩大数据集的规模和多样性。该数据集的核心研究问题是如何在广泛的视觉概念中实现高效的预训练，特别是针对长尾视觉概念的识别。CC12M的发布对视觉与语言研究领域产生了深远影响，为模型提供了丰富的训练数据，有助于提升图像理解与生成的能力。

当前挑战

CC12M数据集在构建过程中面临多项挑战。首先，数据集的规模庞大，涉及1200万对图像和文本，这要求高效的存储和处理技术。其次，数据集的多样性带来了数据质量的挑战，如何在保持数据多样性的同时确保数据的有效性和准确性是一个重要问题。此外，数据集中包含了大量来自网络的图像和文本，如何有效过滤和处理这些数据，避免隐私泄露和不当内容的出现，也是一项艰巨的任务。最后，数据集的预处理步骤复杂，包括图像和文本的过滤、标准化以及隐私保护措施的实施，这些都需要精细的设计和高效的执行。

常用场景

经典使用场景

Conceptual 12M数据集的经典使用场景主要集中在视觉与语言的预训练任务中。该数据集包含1200万对图像与文本描述，为图像字幕生成（Image Captioning）任务提供了丰富的训练数据。通过大规模的图像与文本对，研究者可以训练模型以理解和生成与图像内容相关的自然语言描述，从而提升模型在视觉与语言交叉领域的性能。

衍生相关工作

基于Conceptual 12M数据集，研究者们开展了多项相关工作，特别是在图像字幕生成和视觉与语言预训练领域。例如，一些研究通过使用该数据集进行大规模预训练，提升了图像字幕生成模型的性能，并在多个基准测试中取得了显著成果。此外，该数据集还激发了在长尾视觉概念识别和多模态学习方面的进一步研究，推动了视觉与语言交叉领域的技术进步。

数据集最近研究