yukimasano/pass
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yukimasano/pass
下载链接
链接失效反馈官方服务:
资源简介:
PASS是一个大规模图像数据集,包含143万张不包含人类的图像,用于高质量的自监督预训练,同时显著减少隐私问题。数据集的结构包括图像及其元数据,如创建者用户名、哈希值、GPS坐标和拍摄日期。数据集的创建目的是为了提供一个更安全的大规模数据集,用于视觉特征的预训练,特别是避免包含人类或人类部分的图像。数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像,并且经过了病毒扫描和内容过滤。数据集的使用仅限于研究目的,不应用于连接图像和用户名等可能去匿名化的任务。
PASS是一个大规模图像数据集,包含143万张不包含人类的图像,用于高质量的自监督预训练,同时显著减少隐私问题。数据集的结构包括图像及其元数据,如创建者用户名、哈希值、GPS坐标和拍摄日期。数据集的创建目的是为了提供一个更安全的大规模数据集,用于视觉特征的预训练,特别是避免包含人类或人类部分的图像。数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像,并且经过了病毒扫描和内容过滤。数据集的使用仅限于研究目的,不应用于连接图像和用户名等可能去匿名化的任务。
提供机构:
yukimasano
原始信息汇总
数据集概述
数据集名称: Pictures without humAns for Self-Supervision (PASS)
数据集大小: 包含1.4百万张图像,数据集总大小为178,563,446,100字节,下载大小为179,640,190,811字节。
语言: 英语
许可证: 遵循Creative Commons Attribution 4.0 International License
多语言性: 单语(英语)
数据集类别: 图像自监督预训练
任务类别: 其他
数据集结构:
- 数据实例: 每个数据点包含一张图像及其元数据,包括创建者用户名、哈希值、GPS纬度、GPS经度和拍摄日期。
- 数据字段:
image: 图像文件,类型为PIL.Image.Image。creator_username: 摄影师的用户名。hash: 图像的哈希值。gps_latitude: 图像的纬度。gps_longitude: 图像的经度。date_taken: 图像的拍摄日期。
- 数据分割: 所有数据包含在训练集中,训练集包含1,439,588个实例。
数据集创建:
- 来源数据: 数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像。
- 注释: 该数据集不包含注释。
- 个人和敏感信息: 数据集不包含任何人类或人类部分,以及可能引起不适的内容。
使用考虑:
- 社会影响: 数据集主要用于研究目的,不应用于可能泄露图像和用户名关联的场景。
- 偏见讨论: 数据集存在地理和相机型号等偏见,但不含人类和人类部分。
额外信息:
- 数据集创建者: Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi。
- 贡献者: 感谢@mariosasko添加此数据集。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



