five

common-canvas/commoncatalog-cc-by-nd

收藏
Hugging Face2024-05-16 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by-nd
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含不同许可的高分辨率创意共享图像的大型集合,收集自2014年的Yahoo Flickr用户。数据集包含高达4k分辨率的图像,是分辨率最高的带标题图像数据集之一。我们为大约1亿张高分辨率图像提供了合成标题,这些图像来自Yahoo Flickr创意共享。数据集用于训练名为CommonCanvas的潜扩散模型家族,旨在使用易于访问的数据集,以简化模型的复制并提供更清晰的训练数据归属机制。

该数据集是一个包含不同许可的高分辨率创意共享图像的大型集合,收集自2014年的Yahoo Flickr用户。数据集包含高达4k分辨率的图像,是分辨率最高的带标题图像数据集之一。我们为大约1亿张高分辨率图像提供了合成标题,这些图像来自Yahoo Flickr创意共享。数据集用于训练名为CommonCanvas的潜扩散模型家族,旨在使用易于访问的数据集,以简化模型的复制并提供更清晰的训练数据归属机制。
提供机构:
common-canvas
原始信息汇总

数据集卡片 for CommonCatalog CC-BY-ND

数据集描述

该数据集是从Yahoo Flickr用户收集的大量高分辨率Creative Common图像(包含不同许可证,详见附录中的论文表1)。数据集包含高达4k分辨率的图像,使其成为最高分辨率的带标注图像数据集之一。

数据集详情

我们为从Yahoo Flickr Creative Commons (YFCC)收集的约1亿张高分辨率图像提供了合成标注。

  • 策划者: Aaron Gokaslan
  • 语言: 英语
  • 许可证: 见相关yaml标签/数据集名称。

数据集来源

  • 存储库: https://github.com/mosaicml/diffusion
  • 论文: https://arxiv.org/abs/2310.16825
  • 演示: 见CommonCanvas Gradios

用途

我们使用CommonCatalog训练一系列称为CommonCanvas的潜在扩散模型。目标是生产一个与Stable Diffusion 2竞争的模型,但使用易于访问且来源已知的数据集来实现这一目标。这样做使得复制模型变得更加容易,并提供了更清晰的机制来应用训练数据归属技术。

直接用途

评估生成模型

数据集结构

数据集分为10个子集,每个子集包含约4GB的parquets文件。每个子文件夹包含一定分辨率范围的图像及其相应的宽高比。数据集还根据图像是否可用于商业用途(C)和不可用于商业用途(NC)进行划分。

数据集创建

策划理由

创建一个标准化、易于访问的数据集,并发布合成标注,以便其他人可以在一个通用数据集上进行开源图像生成训练。

源数据

Yahoo Flickr Creative Commons 100M数据集和合成生成的标注数据。

数据收集和处理

所有合成标注均使用BLIP2生成。详见论文。

源数据生产者

Flickr用户

偏见、风险和限制

详见Yahoo Flickr Creative Commons 100M数据集。数据收集于2014年左右,已知偏向于互联网连接的西方国家。一些地区,如全球南方,缺乏代表性。

引用

BibTeX:

@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }

数据集卡片作者

Aaron Gokaslan

数据集卡片联系

Aaron Gokaslan

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CommonCatalog CC-BY-ND数据集是一个高分辨率的创意共享图片集合,包含约100万张图片,用于训练潜在扩散模型CommonCanvas。数据集结构清晰,分为多个子集,便于使用和研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作