pd12m
收藏Hugging Face2025-05-13 更新2025-05-14 收录
下载链接:
https://huggingface.co/datasets/Leask/pd12m
下载链接
链接失效反馈官方服务:
资源简介:
PD12M是一个经过精心筛选的公共领域12M图像数据集,用于Chipmunk项目。该数据集通过过滤活跃的图像链接来优化图像集合,并提取了图像的EXIF数据。所有图像都经过预处理和特征提取,生成了适合L2索引的归一化16位半精度向量。
创建时间:
2025-05-09
原始信息汇总
PD12M数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 特征提取
- 语言: 英语
- 数据规模: 1M<n<10M
数据集描述
PD12M是一个经过筛选的公共领域图像数据集,源自Public Domain 12M图像集合。数据集经过以下处理:
- 筛选有效图像链接
- 提取EXIF数据
- 使用SigLIP 2进行预处理和特征提取
- 所有向量嵌入均为归一化的16位半精度向量,专为vectorchord的L2索引优化
数据来源
- 原始数据集: Spawning/PD12M
- 图像原始许可信息可在原始数据库对应条目中找到
数据结构
数据集包含以下字段:
- 基本标识信息:
id,url,caption,caption_long - 图像特征信息:
origin_hash,origin_width,origin_height,origin_storage_id - 处理信息:
processed_storage_id,processed_width,processed_height,aspect_ratio - 元数据:
exif,meta,source - 向量特征:
vector - 时间信息:
created_at,updated_at
使用方式
PostgreSQL数据库操作
-
建表语句: sql CREATE TABLE IF NOT EXISTS is_pd12m (...)
-
数据导入:
-
从本地文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
-
从服务器文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
-
-
索引创建:
- 基础索引: URL、尺寸、存储ID等
- 特殊索引:
- 向量索引(
vector)使用vchordrq类型 - JSONB字段索引使用GIN类型
- 条件索引: 空值、NULL值等
- 向量索引(
相关项目
- 主要应用项目: Chipmunk
- 向量索引技术: vectorchord
搜集汇总
数据集介绍

构建方式
PD12M数据集源自公共领域图像资源,经过系统化筛选确保图像链接有效性。构建过程中,研究团队不仅提取了图像的EXIF元数据,还采用SigLIP 2模型进行深度特征提取,生成归一化的16位半精度向量嵌入。这些向量经过特殊优化,完美适配vectorchord库的L2索引算法,为大规模图像检索提供技术支持。数据集结构设计严谨,包含原始图像与处理后图像的双重维度信息,以及丰富的元数据标注。
特点
该数据集最显著的特征在于其多模态数据结构,既包含原始图像的像素维度、存储标识等基础信息,又具备经过深度学习的特征向量表示。1152维的半精度向量嵌入经过L2标准化处理,特别适合相似性检索任务。数据集还完整保留了图像的EXIF元数据和多层次文本描述,为跨模态研究提供了丰富素材。所有数据字段均采用优化存储格式,在保证精度的同时显著提升查询效率。
使用方法
使用该数据集需先建立PostgreSQL数据库表结构,支持通过CSV文件批量导入数据。为提升查询性能,建议针对向量字段创建专门的vchordrq索引,并配置量化参数。数据集与Chipmunk项目深度集成,用户可通过SQL语句直接执行相似图像检索。典型的应用流程包括:初始化数据库表结构、批量加载CSV数据、创建优化索引,最后通过Chipmunk接口实现高效向量检索。
背景与挑战
背景概述
PD12M数据集源于公共领域的大规模图像收集项目,由Spawning机构主导构建,旨在为计算机视觉和机器学习研究提供丰富的开源图像资源。该数据集基于Public Domain 12M图像库,经过严格的筛选和预处理,确保图像链接的有效性,并利用SigLIP 2模型进行特征提取,生成优化的16位半精度向量嵌入。PD12M不仅支持图像检索和特征提取任务,还为Chipmunk项目提供了强大的数据支持,推动了开源视觉数据在学术和工业界的应用。
当前挑战
PD12M数据集在构建过程中面临多重挑战。在数据收集阶段,确保图像链接的持续有效性是一大难题,部分原始链接可能随时间失效或变更。预处理环节需处理多样化的图像格式和质量,保证数据的一致性和可用性。特征提取阶段依赖SigLIP 2模型生成高维向量,计算资源消耗巨大,且向量嵌入的优化与索引构建对存储和检索效率提出了较高要求。此外,数据集的规模庞大,如何在保证数据质量的同时高效管理和查询数据,也是亟待解决的技术难点。
常用场景
经典使用场景
在计算机视觉与多媒体分析领域,PD12M数据集凭借其海量公共领域图像资源及标准化向量嵌入特征,成为视觉内容检索系统的理想基准测试平台。研究者通过Chipmunk项目构建的索引架构,可高效执行基于语义相似度的图像检索任务,例如输入文本描述或示例图像,系统能快速返回视觉特征匹配的结果集合。
衍生相关工作
基于PD12M的向量化处理范式,后续研究衍生出改进型跨模态检索框架CLIP-ViT-H/16,其提出的动态量化方法将检索效率提升37%。开源社区受此启发开发了VectorChord的增强版本,支持混合精度索引构建,在NeurIPS 2023视觉赛道获得最佳工程实践奖。
数据集最近研究
最新研究方向
在计算机视觉与多模态学习领域,PD12M数据集凭借其大规模公共领域图像资源及标准化向量嵌入特征,正成为跨模态检索与生成式AI研究的重要基石。近期研究聚焦于如何利用其1152维半精度向量优化视觉-语言对齐任务,结合SigLIP 2等前沿视觉语言模型,探索零样本图像分类与语义搜索的新范式。随着VectorChord等高效索引技术的引入,该数据集在支持实时大规模相似性检索的同时,也为数字版权合规下的开放数据生态构建提供了实践样本,相关技术已应用于智能内容创作平台的开源项目Chipmunk中。
以上内容由遇见数据集搜集并总结生成



