five

common-canvas/commoncatalog-cc-by-nc-sa

收藏
Hugging Face2024-05-16 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by-nc-sa
下载链接
链接失效反馈
官方服务:
资源简介:
CommonCatalog CC-BY-NC-SA数据集是一个包含从Yahoo Flickr Creative Commons收集的高分辨率图像的大型集合,分辨率高达4K,并提供了大约1亿张高分辨率图像的合成标题。数据集的主要用途是训练文本到图像模型和图像到文本模型,特别是用于训练名为CommonCanvas的潜在扩散模型。数据集的结构分为10个子集,每个子集包含约4GB的parquet文件,并根据图像的商业使用许可进行了分类。数据集的创建目的是为了提供一个标准化、易于访问的数据集,以便其他人可以在一个共同的开放源代码图像生成数据集上进行训练。
提供机构:
common-canvas
原始信息汇总

数据集卡片 for CommonCatalog CC-BY-NC-SA

数据集详情

数据集描述

该数据集是从Yahoo Flickr用户收集的大量高分辨率Creative Common图像(包含不同的许可证,详见附录中的论文表1),收集于2014年。数据集包含高达4k分辨率的图像,使其成为最高分辨率的带标注图像数据集之一。

  • 由以下人员策划: Aaron Gokaslan
  • 语言(NLP): 英语
  • 许可证: 见相关的yaml标签/数据集名称。

数据集来源

  • 存储库: https://github.com/mosaicml/diffusion
  • 论文: https://arxiv.org/abs/2310.16825
  • 演示: 见CommonCanvas Gradios

用途

我们使用CommonCatalog来训练一系列称为CommonCanvas的潜在扩散模型。目标是产生一个与Stable Diffusion 2竞争的模型,但使用易于访问且来源已知的数据集来实现这一点。这样做使得复制模型变得更加容易,并提供了一个更清晰的机制来应用训练数据归属技术。

直接用途

  • 训练文本到图像模型
  • 训练图像到文本模型

超出范围的用途

  • 商业用途
  • 制作对个人有冒犯性或伤害性的内容,包括对其生活条件、文化背景、宗教信仰等的负面描述
  • 故意创建或传播歧视性内容或强化有害刻板印象
  • 未经许可虚假代表个人
  • 生成可能被个人无意中看到的性内容
  • 制作或传播虚假或误导性信息
  • 创建描绘极端暴力或流血的内容
  • 分发修改版权或授权材料的内容,违反其使用条款

数据集结构

数据集分为10个子集,每个子集包含约4GB的parquets文件。每个子文件夹包含不同分辨率和相应宽高比的图像。数据集还根据图像是否授权商业使用(C)和非商业使用(NC)进行划分。

数据集创建

策划理由

创建一个标准化的、易于访问的数据集,并发布带有合成标注的数据集,以便其他人可以在一个通用的开源图像生成数据集上进行训练。

源数据

Yahoo Flickr Creative Commons 100M数据集和合成生成的标注数据。

数据收集和处理

所有合成标注均由BLIP2生成。详见论文。

源数据生产者

Flickr用户

偏见、风险和限制

详见Yahoo Flickr Creative Commons 100M数据集。数据收集于2014年左右,已知偏向互联网连接的西方国家。一些地区,如全球南方,缺乏代表性。

引用

BibTeX:

@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }

数据集卡片作者

Aaron Gokaslan

数据集卡片联系

Aaron Gokaslan

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作