common-canvas/commoncatalog-cc-by-nd

Name: common-canvas/commoncatalog-cc-by-nd
Creator: common-canvas
Published: 2024-05-16 19:42:40
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by-nd

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含不同许可的高分辨率创意共享图像的大型集合，收集自2014年的Yahoo Flickr用户。数据集包含高达4k分辨率的图像，是分辨率最高的带标题图像数据集之一。我们为大约1亿张高分辨率图像提供了合成标题，这些图像来自Yahoo Flickr创意共享。数据集用于训练名为CommonCanvas的潜扩散模型家族，旨在使用易于访问的数据集，以简化模型的复制并提供更清晰的训练数据归属机制。

提供机构：

common-canvas

原始信息汇总

数据集卡片 for CommonCatalog CC-BY-ND

数据集描述

该数据集是从Yahoo Flickr用户收集的大量高分辨率Creative Common图像（包含不同许可证，详见附录中的论文表1）。数据集包含高达4k分辨率的图像，使其成为最高分辨率的带标注图像数据集之一。

数据集详情

我们为从Yahoo Flickr Creative Commons (YFCC)收集的约1亿张高分辨率图像提供了合成标注。

策划者： Aaron Gokaslan
语言： 英语
许可证： 见相关yaml标签/数据集名称。

数据集来源

存储库： https://github.com/mosaicml/diffusion
论文： https://arxiv.org/abs/2310.16825
演示： 见CommonCanvas Gradios

用途

我们使用CommonCatalog训练一系列称为CommonCanvas的潜在扩散模型。目标是生产一个与Stable Diffusion 2竞争的模型，但使用易于访问且来源已知的数据集来实现这一目标。这样做使得复制模型变得更加容易，并提供了更清晰的机制来应用训练数据归属技术。

直接用途

评估生成模型

数据集结构

数据集分为10个子集，每个子集包含约4GB的parquets文件。每个子文件夹包含一定分辨率范围的图像及其相应的宽高比。数据集还根据图像是否可用于商业用途（C）和不可用于商业用途（NC）进行划分。

数据集创建

策划理由

创建一个标准化、易于访问的数据集，并发布合成标注，以便其他人可以在一个通用数据集上进行开源图像生成训练。

源数据

Yahoo Flickr Creative Commons 100M数据集和合成生成的标注数据。

数据收集和处理

所有合成标注均使用BLIP2生成。详见论文。

源数据生产者

Flickr用户

偏见、风险和限制

详见Yahoo Flickr Creative Commons 100M数据集。数据收集于2014年左右，已知偏向于互联网连接的西方国家。一些地区，如全球南方，缺乏代表性。

引用

BibTeX:

@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }