common-canvas/commoncatalog-cc-by-nd
收藏数据集卡片 for CommonCatalog CC-BY-ND
数据集描述
该数据集是从Yahoo Flickr用户收集的大量高分辨率Creative Common图像(包含不同许可证,详见附录中的论文表1)。数据集包含高达4k分辨率的图像,使其成为最高分辨率的带标注图像数据集之一。
数据集详情
我们为从Yahoo Flickr Creative Commons (YFCC)收集的约1亿张高分辨率图像提供了合成标注。
- 策划者: Aaron Gokaslan
- 语言: 英语
- 许可证: 见相关yaml标签/数据集名称。
数据集来源
- 存储库: https://github.com/mosaicml/diffusion
- 论文: https://arxiv.org/abs/2310.16825
- 演示: 见CommonCanvas Gradios
用途
我们使用CommonCatalog训练一系列称为CommonCanvas的潜在扩散模型。目标是生产一个与Stable Diffusion 2竞争的模型,但使用易于访问且来源已知的数据集来实现这一目标。这样做使得复制模型变得更加容易,并提供了更清晰的机制来应用训练数据归属技术。
直接用途
评估生成模型
数据集结构
数据集分为10个子集,每个子集包含约4GB的parquets文件。每个子文件夹包含一定分辨率范围的图像及其相应的宽高比。数据集还根据图像是否可用于商业用途(C)和不可用于商业用途(NC)进行划分。
数据集创建
策划理由
创建一个标准化、易于访问的数据集,并发布合成标注,以便其他人可以在一个通用数据集上进行开源图像生成训练。
源数据
Yahoo Flickr Creative Commons 100M数据集和合成生成的标注数据。
数据收集和处理
所有合成标注均使用BLIP2生成。详见论文。
源数据生产者
Flickr用户
偏见、风险和限制
详见Yahoo Flickr Creative Commons 100M数据集。数据收集于2014年左右,已知偏向于互联网连接的西方国家。一些地区,如全球南方,缺乏代表性。
引用
BibTeX:
@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }
数据集卡片作者
数据集卡片联系




