common-canvas/commoncatalog-cc-by-nc

Name: common-canvas/commoncatalog-cc-by-nc
Creator: common-canvas
Published: 2024-05-16 19:44:00
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by-nc

下载链接

链接失效反馈

官方服务：

资源简介：

CommonCatalog CC-BY-NC数据集是一个包含从Yahoo Flickr Creative Commons收集的高分辨率图像的大型集合，分辨率高达4K，并附有合成字幕。该数据集主要用于训练文本到图像和图像到文本模型，特别是用于训练名为CommonCanvas的潜在扩散模型。数据集的结构分为10个子集，每个子集包含约4GB的parquet文件，并根据图像的分辨率和宽高比进行组织。数据集的创建目的是为了提供一个标准化、易于访问的数据集，以便其他人可以在一个共同的数据集上进行开源图像生成的训练。数据集的语言为英语，许可证为CC-BY-NC-4.0。

CommonCatalog CC-BY-NC dataset is a large-scale collection of high-resolution images sourced from Yahoo Flickr Creative Commons, with resolutions up to 4K, paired with synthesized captions. This dataset is primarily intended for training text-to-image and image-to-text models, especially for the training of the latent diffusion model named CommonCanvas. The dataset is structured into 10 subsets, each containing approximately 4GB of Parquet files, organized based on image resolution and aspect ratio. The purpose of developing this dataset is to provide a standardized and easily accessible resource, enabling other researchers to conduct open-source image generation training on a unified dataset. The dataset uses English as its language, and is licensed under CC-BY-NC-4.0.

提供机构：

common-canvas

原始信息汇总

数据集卡片 for CommonCatalog CC-BY-NC

数据集详情

数据集描述

该数据集是从Yahoo Flickr用户收集的2014年创作共用高分辨率图像的大型集合（包含不同的许可证，详见附录中的论文表1）。数据集包含高达4k分辨率的图像，使其成为最高分辨率的带标题图像数据集之一。

由以下人员策划： Aaron Gokaslan
语言（NLP）： 英语
许可证： 见相关的yaml标签/数据集名称。

数据集来源

存储库： https://github.com/mosaicml/diffusion
论文： https://arxiv.org/abs/2310.16825
演示： 见CommonCanvas Gradios

用途

我们使用CommonCatalog来训练一系列称为CommonCanvas的潜在扩散模型。目标是生成一个与Stable Diffusion 2竞争的模型，但使用易于访问且来源已知的数据集来实现这一目标。这样做使得复制模型变得更加容易，并提供了一个更清晰的机制来应用训练数据归属技术。

直接用途

训练文本到图像模型
训练图像到文本模型

超出范围的用途

商业用途
制作对个人有冒犯性或伤害性的内容，包括对其生活条件、文化背景、宗教信仰等的负面描述。
故意创建或传播歧视性内容或强化有害刻板印象。
未经许可虚假代表个人。
生成可能被个人无意中看到的性内容。
制作或传播虚假或误导性信息。
创建描绘极端暴力或流血的内容。
分发违反版权或许可材料使用条款的内容。

数据集结构

数据集分为10个子集，每个子集包含约4GB的parquets文件。每个子文件夹包含不同分辨率和相应宽高比的图像。数据集还根据图像是否授权商业使用（C）和非商业使用（NC）进行划分。

数据集创建

策划理由

创建一个标准化、易于访问的数据集，并发布合成标题，以便其他人可以在一个通用数据集上进行开源图像生成训练。

源数据

Yahoo Flickr Creative Commons 100M数据集和合成生成的标题数据。

数据收集和处理

所有合成标题均使用BLIP2生成。详见论文。

源数据生产者

Flickr用户

偏差、风险和限制

详见Yahoo Flickr Creative Commons 100M数据集。该信息收集于2014年左右，已知偏向于互联网连接的西方国家。一些地区，如全球南部，缺乏代表性。

引用

BibTeX:

@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }

数据集卡片作者

Aaron Gokaslan

数据集卡片联系人

Aaron Gokaslan

搜集汇总

数据集介绍

背景与挑战

背景概述

CommonCatalog CC-BY-NC数据集是一个包含约100万张高分辨率创意共享图片的集合，这些图片来自Yahoo Flickr用户，并附有BLIP2生成的合成标题。数据集主要用于训练文本到图像和图像到文本模型，特别适用于开源图像生成的研究。数据集按照商业使用许可（C）和非商业使用许可（NC）进行分类，并包含多种分辨率和宽高比的图片。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集