madebyollin/megalith-10m

Name: madebyollin/megalith-10m
Creator: madebyollin
Published: 2024-10-20 21:51:57
License: 暂无描述

Hugging Face2024-10-20 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/madebyollin/megalith-10m

下载链接

链接失效反馈

官方服务：

资源简介：

Megalith-10m是一个包含约1000万张Flickr图片链接的数据集，这些图片被分类为“照片”，并具有特定的版权信息，包括无已知版权限制、美国政府作品、公共领域奉献（CC0）或公共领域标记。该数据集的主要用途是训练神经网络，但也允许用户自由使用。数据集的收集过程包括使用Flickr API查询符合基本条件的照片，并通过多种过滤策略排除不符合条件的图片链接。数据集中的图片类型包括未经编辑的公共领域照片，但也可能包含少量经过编辑、受版权限制、不健康或非照片类型的图片。

Megalith-10m is a dataset of ~10 million links to Flickr images categorized as photo with specific license information, including no known copyright restrictions, United States Government Work, Public Domain Dedication (CC0), or Public Domain Mark. The dataset is intended to contain only links to wholesome, unedited, and uncopyrighted photographic images, the kind we humans see when walking outside. The collection of the dataset used the Flickr API to query photos matching certain basic criteria (SFW photos with CC0/public domain license info), and then various filtering strategies were employed to exclude ~2 million image links that did not appear to point to wholesome, public-domain, minimally-edited photos. These filtering strategies included account-level and photo-level filtering. The dataset is primarily used for training neural networks but is also welcome for other purposes.

提供机构：

madebyollin

原始信息汇总

Megalith-10m 数据集概述

数据集简介

名称: Megalith-10m
内容: 包含约1000万条指向Flickr图片的链接，这些图片被分类为“照片”，并具有以下版权信息：
- 无已知版权限制（Flickr Commons）
- 美国政府作品
- 公共领域奉献（CC0）
- 公共领域标记

数据集用途

目的: 用于训练神经网络，包含无版权、未经编辑的纯净照片。
建议: 在使用数据集中的图片进行重要项目前，建议进行独立的内容和版权状态分析。

数据收集方法

来源: 通过Flickr API查询符合特定标准的照片（SFW照片，CC0/公共领域版权信息），获得约1200万条链接。
过滤策略:
1. 账户级别过滤:
  - 手动裁定前5000个最活跃账户
  - 重复水印检测
2. 照片级别过滤:
  - 图像元数据:
    - EXIF标签中的版权限制提及
    - 文本描述中的版权限制提及
  - 图像内容:
    - 重复检测
    - CLIP辅助检查：
      - 非照片图像（插图、截图、3D渲染等）
      - 非纯净图像（暴力、裸露等）
    - 最低分辨率要求（至少256x256像素）
    - 手动抽查部分图像和元数据

数据集内容

示例: 随机抽样100张图片展示数据集内容。
统计估计:
- 5-7%的图像可能有轻微编辑或注释
- 1-2%的图像可能受版权限制
- 1-2%的图像可能不纯净
- 1-2%的图像可能不是照片

数据集规模

规模: 1000万张图片
适用性: 对于数据集中充分代表的视觉世界部分，足以训练神经网络。但对于未充分代表的部分，需要额外数据。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集