pd12m

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/Intelligent-Internet/pd12m

下载链接

链接失效反馈

官方服务：

资源简介：

PD12M是一个经过精心筛选和预处理的大规模公共领域图片数据集，用于II-Commons项目。它包含了活跃的图片链接，提取了EXIF数据，并且使用SigLIP 2进行了特征提取，所有向量嵌入都是标准化为16位半精度向量，以优化L2索引。数据集来源于Spawning/PD12M，并遵循Apache-2.0许可。

创建时间：

2025-05-09

原始信息汇总

PD12M数据集概述

基本信息

许可证: Apache-2.0
任务类别: 特征提取
语言: 英语
数据规模: 1M<n<10M

数据集描述

PD12M是一个经过筛选的公共领域图像数据集，源自Public Domain 12M图像集合。数据集经过以下处理：

筛选有效图像链接
提取EXIF数据
使用SigLIP 2进行预处理和特征提取
所有向量嵌入为归一化的16位半精度向量，优化用于L2索引

数据来源

原始数据集: Spawning/PD12M

数据结构

字段名称	数据类型	描述
id	BIGSERIAL	图像唯一标识符
url	VARCHAR	图像URL
caption	VARCHAR	图像标题
caption_long	VARCHAR	详细图像标题
origin_width	BIGINT	原始图像宽度(像素)
origin_height	BIGINT	原始图像高度(像素)
processed_width	BIGINT	处理后图像宽度
processed_height	BIGINT	处理后图像高度
aspect_ratio	DOUBLE PRECISION	图像宽高比
exif	JSONB	图像EXIF数据
meta	JSONB	图像元数据
created_at	TIMESTAMP	创建时间
updated_at	TIMESTAMP	更新时间
source	JSONB	图像来源组织
vector	halfvec(1152)	图像向量嵌入
origin_source	VARCHAR	原始来源
license	VARCHAR	图像许可证

使用前提

数据库: PostgreSQL 17
必要扩展:
- vectorchord
- pg_search
推荐方式: 使用提供的Docker镜像

使用方法

创建数据库表: sql CREATE TABLE IF NOT EXISTS is_pd12m (...)
加载数据:
- 从本地文件系统: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
- 从服务器文件系统: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
创建索引:
- 包括URL、尺寸、宽高比、EXIF、元数据、向量等多种索引

应用示例

可与II-Commons项目配合使用

搜集汇总

数据集介绍

构建方式

PD12M数据集源自公共领域图像资源，经过精心筛选以确保所有图像链接的有效性。构建过程中，研究人员不仅提取了图像的EXIF数据，还通过SigLIP 2模型进行预处理和特征提取，最终生成归一化的16位半精度向量嵌入。这些向量经过特殊优化，可与vectorchord工具实现高效的L2索引匹配，为大规模图像检索任务奠定坚实基础。

使用方法

使用该数据集需配置PostgreSQL 17数据库并加载vectorchord和pg_search扩展模块。数据以CSV格式存储，可通过标准SQL命令批量导入。为优化检索性能，建议建立多维索引体系，包括针对向量列的专用L2索引。实际应用中，开发者可利用II-Commons项目提供的接口，结合语义向量与元数据过滤条件，实现高效的跨模态检索与分析。数据集支持从基础属性查询到复杂语义搜索的多种应用场景。

背景与挑战

背景概述

PD12M数据集作为一项重要的公共领域图像资源，由Intelligent-Internet团队基于Spawning/PD12M原始数据集进行深度优化与重构。该数据集的核心价值在于整合了超过1200万张经过严格筛选的公共领域图像，并通过SigLIP 2模型进行特征提取，生成标准化向量嵌入。其构建过程充分考虑了数字资产管理中的关键技术问题，包括图像链接有效性验证、EXIF元数据提取以及多维度特征编码，为计算机视觉与跨模态检索研究提供了高质量的基准数据。数据集采用Apache 2.0许可协议，体现了开放科学的研究理念，对推动多媒体内容分析与知识图谱构建具有重要意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，大规模图像特征向量的高效检索需要平衡计算精度与响应速度，现有L2索引方案对高维向量的近似最近邻搜索仍存在精度损失风险；在构建过程中，原始数据清洗涉及复杂的版权合规性验证，且跨平台图像链接的稳定性维护需要持续投入。技术实现上，1152维半精度向量的存储优化与PostgreSQL扩展组件的性能调优，对分布式系统的资源调度提出了更高要求。此外，多模态元数据（EXIF、文本描述、图像特征）的异构性整合，也增加了数据一致性与查询效率保障的复杂度。

常用场景

经典使用场景

在计算机视觉与多媒体分析领域，PD12M数据集因其海量的公共领域图像资源与精细的预处理流程，成为图像检索与特征提取研究的基准数据集。研究者通过其标准化的向量嵌入和丰富的元数据，能够高效构建跨模态检索系统，验证视觉-语言预训练模型的泛化能力。数据集提供的归一化半精度向量特别适合评估近似最近邻搜索算法的精度与效率。

解决学术问题

该数据集有效解决了大规模图像检索中数据质量参差不齐的痛点，其经过清洗的URL链接和标准化EXIF数据为研究图像版权合规性提供了可靠样本。通过SigLIP 2提取的视觉特征向量，显著降低了跨域视觉表征学习的计算成本，为多模态对齐研究提供了超过1200维的高质量特征空间。

实际应用

在实际工业场景中，PD12M支持电子商务平台的视觉搜索系统优化，其标注完善的图像属性可用于构建服装、家居等垂直领域的相似商品推荐引擎。媒体机构则利用其开放的版权特性，快速检索符合出版要求的配图素材。数据集的向量化存储方案更被应用于智能相册的自动分类系统开发。

数据集最近研究