five

common-canvas/commoncatalog-cc-by

收藏
Hugging Face2024-05-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含高分辨率Creative Commons图像的大型集合,这些图像是从Yahoo Flickr用户收集的,并附有合成标题。数据集的主要用途是训练文本到图像和图像到文本的模型,特别是用于训练名为CommonCanvas的潜在扩散模型。数据集的结构包括10个子集,每个子集包含约4GB的parquet文件,图像分辨率高达4K。数据集的创建目的是为了提供一个标准化、易于访问的数据集,以便其他人可以在一个共同的数据集上进行开源图像生成的训练。

该数据集是一个包含高分辨率Creative Commons图像的大型集合,这些图像是从Yahoo Flickr用户收集的,并附有合成标题。数据集的主要用途是训练文本到图像和图像到文本的模型,特别是用于训练名为CommonCanvas的潜在扩散模型。数据集的结构包括10个子集,每个子集包含约4GB的parquet文件,图像分辨率高达4K。数据集的创建目的是为了提供一个标准化、易于访问的数据集,以便其他人可以在一个共同的数据集上进行开源图像生成的训练。
提供机构:
common-canvas
原始信息汇总

数据集概述

数据集描述

  • 名称: CommonCatalog CC-BY
  • 来源: 2014年从Yahoo Flickr用户收集的Creative Commons图像。
  • 特点: 包含高达4k分辨率的图像,是高分辨率带标题图像数据集之一。
  • 内容: 约1亿张高分辨率图像,附有合成标题。
  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 创建者: Aaron Gokaslan

数据集结构

  • 数据类型:
    • 图像: jpg
    • 文本: blip2_caption, caption, licensename, licenseurl, usertags, machinetags, title, description
    • 数值: width, height, original_width, original_height, photoid, uid, unickname, datetaken, dateuploaded, accuracy, serverid, farmid, secret, secretoriginal, key, status, error_message, exif, sha256
    • 地理位置: longitude, latitude
    • URL: pageurl, downloadurl, url
  • 结构: 分为10个部分,每个部分约4GB,根据图像分辨率和商业使用许可(C或NC)划分。

数据集用途

  • 直接用途: 训练文本到图像模型,训练图像到文本模型。
  • 非适用用途: 包括但不限于创建攻击性内容、歧视性内容、未经授权的个人代表、未经同意的性内容、虚假信息、极端暴力内容、违反版权或许可条款的内容修改。

数据集创建

  • 来源数据: Yahoo Flickr Creative Commons 100M Dataset和合成生成的标题数据。
  • 数据处理: 所有合成标题由BLIP2生成。
  • 数据生产者: Flickr用户。

数据集偏差、风险和限制

  • 偏差: 数据集偏向互联网连接的西方国家,全球南方地区代表性不足。
  • 风险和限制: 数据收集于2014年,可能不反映当前情况。

引用信息

@article{gokaslan2023commoncanvas, title={CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images}, author={Gokaslan, Aaron and Cooper, A Feder and Collins, Jasmine and Seguin, Landan and Jacobson, Austin and Patel, Mihir and Frankle, Jonathan and Stephenson, Cory and Kuleshov, Volodymyr}, journal={arXiv preprint arXiv:2310.16825}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作