common-canvas/commoncatalog-cc-by-nc-nd
收藏Hugging Face2024-05-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/common-canvas/commoncatalog-cc-by-nc-nd
下载链接
链接失效反馈官方服务:
资源简介:
CommonCatalog CC-BY-NC-ND数据集是一个包含从Yahoo Flickr Creative Commons收集的高分辨率图像的大型集合,分辨率高达4K,并附有合成字幕。数据集主要用于训练文本到图像和图像到文本模型,特别是用于训练名为CommonCanvas的潜在扩散模型。数据集结构分为10个子集,每个子集包含约4GB的parquet文件,并根据图像的商业使用许可(C和NC)进行划分。数据集的创建目的是为了提供一个标准化的、易于访问的数据集,以便其他人可以在一个共同的开放源代码图像生成数据集上进行训练。数据集的风险和局限性包括对互联网连接的西方国家的偏见,以及全球南方地区的代表性不足。
提供机构:
common-canvas
原始信息汇总
数据集概述
数据集名称
- 名称: CommonCatalog CC-BY-NC-ND
数据集描述
- 内容: 包含约1亿张高分辨率图像,来自Yahoo Flickr Creative Commons,具有合成标题。
- 分辨率: 最高可达4K分辨率。
- 语言: 英语
- 许可证: CC-BY-NC-ND-4.0
- 收集时间: 2014年
数据集特征
- 图像特征:
- jpg: 图像类型
- width, height, original_width, original_height: 整数类型,表示图像尺寸
- photoid, uid, serverid, farmid: 字符串或整数类型,用于标识
- longitude, latitude: 浮点数类型,地理位置信息
- accuracy: 整数类型,定位精度
- url, downloadurl, pageurl: 字符串类型,链接信息
- sha256: 字符串类型,哈希值
- 文本特征:
- blip2_caption, caption, licensename, licenseurl, unickname, datetaken, dateuploaded, capturedevice, title, usertags, machinetags, secret, secretoriginal, ext, key, status, error_message, exif, description: 字符串类型,包含标题、描述、上传日期、设备信息等
数据集结构
- 分割: 分为10个子集,每个子集约4GB,按图像分辨率和商业使用许可(C或NC)划分。
数据集用途
- 直接用途: 训练文本到图像模型,训练图像到文本模型
- 非直接用途: 禁止商业使用,不得用于创建或传播歧视性、误导性内容,不得用于侵犯版权等。
数据集创建
- 来源数据: Yahoo Flickr Creative Commons 100M Dataset 和合成生成的标题数据
- 数据处理: 使用BLIP2生成合成标题
- 数据生产者: Flickr用户
数据集偏差、风险和限制
- 偏差: 主要偏向互联网连接的西方国家,全球南方地区代表性不足
- 风险和限制: 数据收集于2014年,可能存在时代偏差
数据集引用
- 引用信息: 见提供的BibTeX条目
数据集联系人
- 联系人: Aaron Gokaslan
- 联系方式: 见提供的链接



