five

yukimasano/pass

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/yukimasano/pass
下载链接
链接失效反馈
官方服务:
资源简介:
PASS是一个大规模图像数据集,包含143万张不包含人类的图像,用于高质量的自监督预训练,同时显著减少隐私问题。数据集的结构包括图像及其元数据,如创建者用户名、哈希值、GPS坐标和拍摄日期。数据集的创建目的是为了提供一个更安全的大规模数据集,用于视觉特征的预训练,特别是避免包含人类或人类部分的图像。数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像,并且经过了病毒扫描和内容过滤。数据集的使用仅限于研究目的,不应用于连接图像和用户名等可能去匿名化的任务。

PASS是一个大规模图像数据集,包含143万张不包含人类的图像,用于高质量的自监督预训练,同时显著减少隐私问题。数据集的结构包括图像及其元数据,如创建者用户名、哈希值、GPS坐标和拍摄日期。数据集的创建目的是为了提供一个更安全的大规模数据集,用于视觉特征的预训练,特别是避免包含人类或人类部分的图像。数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像,并且经过了病毒扫描和内容过滤。数据集的使用仅限于研究目的,不应用于连接图像和用户名等可能去匿名化的任务。
提供机构:
yukimasano
原始信息汇总

数据集概述

数据集名称: Pictures without humAns for Self-Supervision (PASS)

数据集大小: 包含1.4百万张图像,数据集总大小为178,563,446,100字节,下载大小为179,640,190,811字节。

语言: 英语

许可证: 遵循Creative Commons Attribution 4.0 International License

多语言性: 单语(英语)

数据集类别: 图像自监督预训练

任务类别: 其他

数据集结构:

  • 数据实例: 每个数据点包含一张图像及其元数据,包括创建者用户名、哈希值、GPS纬度、GPS经度和拍摄日期。
  • 数据字段:
    • image: 图像文件,类型为PIL.Image.Image
    • creator_username: 摄影师的用户名。
    • hash: 图像的哈希值。
    • gps_latitude: 图像的纬度。
    • gps_longitude: 图像的经度。
    • date_taken: 图像的拍摄日期。
  • 数据分割: 所有数据包含在训练集中,训练集包含1,439,588个实例。

数据集创建:

  • 来源数据: 数据集是从YFCC-100M数据集中筛选出来的,仅包含CC-BY许可的图像。
  • 注释: 该数据集不包含注释。
  • 个人和敏感信息: 数据集不包含任何人类或人类部分,以及可能引起不适的内容。

使用考虑:

  • 社会影响: 数据集主要用于研究目的,不应用于可能泄露图像和用户名关联的场景。
  • 偏见讨论: 数据集存在地理和相机型号等偏见,但不含人类和人类部分。

额外信息:

  • 数据集创建者: Yuki M. Asano, Christian Rupprecht, Andrew Zisserman, Andrea Vedaldi。
  • 贡献者: 感谢@mariosasko添加此数据集。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作