pd12m
收藏Hugging Face2025-05-19 更新2025-05-20 收录
下载链接:
https://huggingface.co/datasets/Intelligent-Internet/pd12m
下载链接
链接失效反馈官方服务:
资源简介:
PD12M是一个经过精心筛选和预处理的大规模公共领域图片数据集,用于II-Commons项目。它包含了活跃的图片链接,提取了EXIF数据,并且使用SigLIP 2进行了特征提取,所有向量嵌入都是标准化为16位半精度向量,以优化L2索引。数据集来源于Spawning/PD12M,并遵循Apache-2.0许可。
创建时间:
2025-05-09
原始信息汇总
PD12M数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 特征提取
- 语言: 英语
- 数据规模: 1M<n<10M
数据集描述
PD12M是一个经过筛选的公共领域图像数据集,源自Public Domain 12M图像集合。数据集经过以下处理:
- 筛选有效图像链接
- 提取EXIF数据
- 使用SigLIP 2进行预处理和特征提取
- 所有向量嵌入为归一化的16位半精度向量,优化用于L2索引
数据来源
- 原始数据集: Spawning/PD12M
数据结构
| 字段名称 | 数据类型 | 描述 |
|---|---|---|
| id | BIGSERIAL | 图像唯一标识符 |
| url | VARCHAR | 图像URL |
| caption | VARCHAR | 图像标题 |
| caption_long | VARCHAR | 详细图像标题 |
| origin_width | BIGINT | 原始图像宽度(像素) |
| origin_height | BIGINT | 原始图像高度(像素) |
| processed_width | BIGINT | 处理后图像宽度 |
| processed_height | BIGINT | 处理后图像高度 |
| aspect_ratio | DOUBLE PRECISION | 图像宽高比 |
| exif | JSONB | 图像EXIF数据 |
| meta | JSONB | 图像元数据 |
| created_at | TIMESTAMP | 创建时间 |
| updated_at | TIMESTAMP | 更新时间 |
| source | JSONB | 图像来源组织 |
| vector | halfvec(1152) | 图像向量嵌入 |
| origin_source | VARCHAR | 原始来源 |
| license | VARCHAR | 图像许可证 |
使用前提
- 数据库: PostgreSQL 17
- 必要扩展:
- 推荐方式: 使用提供的Docker镜像
使用方法
-
创建数据库表: sql CREATE TABLE IF NOT EXISTS is_pd12m (...)
-
加载数据:
-
从本地文件系统: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
-
从服务器文件系统: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
-
-
创建索引:
- 包括URL、尺寸、宽高比、EXIF、元数据、向量等多种索引
应用示例
可与II-Commons项目配合使用
搜集汇总
数据集介绍
构建方式
PD12M数据集源自公共领域图像资源,经过精心筛选以确保所有图像链接的有效性。构建过程中,研究人员不仅提取了图像的EXIF数据,还通过SigLIP 2模型进行预处理和特征提取,最终生成归一化的16位半精度向量嵌入。这些向量经过特殊优化,可与vectorchord工具实现高效的L2索引匹配,为大规模图像检索任务奠定坚实基础。
使用方法
使用该数据集需配置PostgreSQL 17数据库并加载vectorchord和pg_search扩展模块。数据以CSV格式存储,可通过标准SQL命令批量导入。为优化检索性能,建议建立多维索引体系,包括针对向量列的专用L2索引。实际应用中,开发者可利用II-Commons项目提供的接口,结合语义向量与元数据过滤条件,实现高效的跨模态检索与分析。数据集支持从基础属性查询到复杂语义搜索的多种应用场景。
背景与挑战
背景概述
PD12M数据集作为一项重要的公共领域图像资源,由Intelligent-Internet团队基于Spawning/PD12M原始数据集进行深度优化与重构。该数据集的核心价值在于整合了超过1200万张经过严格筛选的公共领域图像,并通过SigLIP 2模型进行特征提取,生成标准化向量嵌入。其构建过程充分考虑了数字资产管理中的关键技术问题,包括图像链接有效性验证、EXIF元数据提取以及多维度特征编码,为计算机视觉与跨模态检索研究提供了高质量的基准数据。数据集采用Apache 2.0许可协议,体现了开放科学的研究理念,对推动多媒体内容分析与知识图谱构建具有重要意义。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,大规模图像特征向量的高效检索需要平衡计算精度与响应速度,现有L2索引方案对高维向量的近似最近邻搜索仍存在精度损失风险;在构建过程中,原始数据清洗涉及复杂的版权合规性验证,且跨平台图像链接的稳定性维护需要持续投入。技术实现上,1152维半精度向量的存储优化与PostgreSQL扩展组件的性能调优,对分布式系统的资源调度提出了更高要求。此外,多模态元数据(EXIF、文本描述、图像特征)的异构性整合,也增加了数据一致性与查询效率保障的复杂度。
常用场景
经典使用场景
在计算机视觉与多媒体分析领域,PD12M数据集因其海量的公共领域图像资源与精细的预处理流程,成为图像检索与特征提取研究的基准数据集。研究者通过其标准化的向量嵌入和丰富的元数据,能够高效构建跨模态检索系统,验证视觉-语言预训练模型的泛化能力。数据集提供的归一化半精度向量特别适合评估近似最近邻搜索算法的精度与效率。
解决学术问题
该数据集有效解决了大规模图像检索中数据质量参差不齐的痛点,其经过清洗的URL链接和标准化EXIF数据为研究图像版权合规性提供了可靠样本。通过SigLIP 2提取的视觉特征向量,显著降低了跨域视觉表征学习的计算成本,为多模态对齐研究提供了超过1200维的高质量特征空间。
实际应用
在实际工业场景中,PD12M支持电子商务平台的视觉搜索系统优化,其标注完善的图像属性可用于构建服装、家居等垂直领域的相似商品推荐引擎。媒体机构则利用其开放的版权特性,快速检索符合出版要求的配图素材。数据集的向量化存储方案更被应用于智能相册的自动分类系统开发。
数据集最近研究
最新研究方向
在计算机视觉与多模态学习领域,PD12M数据集凭借其大规模公共领域图像资源及标准化向量嵌入特性,正成为跨模态检索与生成式AI研究的热点。近期研究聚焦于如何利用SigLIP 2提取的归一化向量特征优化图像-文本对齐任务,特别是在零样本学习场景下验证多模态模型的泛化能力。该数据集与VectorChord的高效L2索引结合,为分布式向量数据库在亿级规模图像检索中的实时响应提供了基准测试平台,相关技术已应用于开源项目II-Commons的智能内容管理系统构建。
以上内容由遇见数据集搜集并总结生成



