openaccess-embeddings-siglip2-oembeddings

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/metmuseum/openaccess-embeddings-siglip2-oembeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为metmuseum/openaccess-embeddings-siglip2-oembeddings，包含由google/siglip2-so400m-patch14-384模型对metmuseum/openaccess数据集生成的嵌入向量。这些嵌入向量按照go-embeddingsdb的Record结构进行组织，并遵循OEmbeddings规范。数据集包含以下字段：provider（提供者）、subject_id（主题ID）、depiction_id（描绘ID）、model（模型）、embeddings（嵌入向量）、created（创建时间）和attributes（属性）。attributes字段包含额外的元数据，如type（类型）、preview（预览）、subject_url（主题URL）、subject_title（主题标题）、subject_creditline（主题信用线）、provider_name（提供者名称）、provider_url（提供者URL）和depiction_url（描绘URL）。数据集采用cc0-1.0许可证，标签包括艺术、博物馆、嵌入向量、oembeddings和siglip2。

本数据集命名为metmuseum/openaccess-embeddings-siglip2-oembeddings，其包含由google/siglip2-so400m-patch14-384模型对metmuseum/openaccess数据集生成的嵌入向量（embeddings）。此类嵌入向量以go-embeddingsdb的记录（Record）结构进行组织，并遵循OEmbeddings规范。数据集涵盖如下字段：提供者（provider）、主题ID（subject_id）、描绘ID（depiction_id）、模型（model）、嵌入向量（embeddings）、创建时间（created）以及属性字段（attributes）。其中属性字段内含额外元数据，具体包括类型（type）、预览（preview）、主题URL（subject_url）、主题标题（subject_title）、主题信用线（subject_creditline）、提供者名称（provider_name）、提供者URL（provider_url）以及描绘URL（depiction_url）。本数据集采用CC0 1.0（cc0-1.0）许可证，标签涵盖艺术、博物馆、嵌入向量、OEmbeddings以及siglip2。

创建时间：

2026-05-04

原始信息汇总

根据您提供的数据集详情页面内容，以下是该数据集的概述：

数据集名称

metmuseum/openaccess-embeddings-siglip2-oembeddings

许可协议

CC0-1.0（公有领域）

数据集标签

艺术（art）
博物馆（museum）
嵌入向量（embeddings）
OEmbeddings规范（oembeddings）
SigLIP2（siglip2）

数据集简介

本数据集包含使用 google/siglip2-so400m-patch14-384 模型对 metmuseum/openaccess 数据集生成的嵌入向量。数据结构遵循 go-embeddingsdb 的 Record 结构，其中 attributes 字段符合 OEmbeddings 规范。

数据列说明

列名	类型	说明
`provider`	string	固定值 `"metmuseum"`
`subject_id`	string	格式为 `metmuseum:{objectID}`，表示艺术品
`depiction_id`	string	格式为 `metmuseum:{objectID}:primaryImage`，表示图像
`model`	string	Hugging Face 模型ID
`embeddings`	list<float32>	L2归一化向量，维度为1152
`created`	int64	生成该批次数据的Unix时间戳（秒）
`attributes`	map<string, string>	OEmbeddings规范字段（见下表）

`attributes` 字段说明

字段	是否必需	来源
`type`	是	固定值 `"image"`
`preview`	是（URI格式）	`primaryImageSmall` 或 `primaryImage`
`subject_url`	是	`objectURL`（大都会博物馆官网页面链接）
`subject_title`	是	`Title`（艺术品标题）
`subject_creditline`	是	`creditLine`（版权归属信息）
`provider_name`	是	`"The Metropolitan Museum of Art"`
`provider_url`	是	`https://www.metmuseum.org/`
`depiction_url`	否	`primaryImage`（原始图像URL）

数据集配置

配置名称：default
数据分片：训练集（train）
数据文件路径：default/train/siglip2-oembeddings-*.parquet

加载数据示例

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-siglip2-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

搜集汇总

数据集介绍

构建方式

该数据集基于大都会艺术博物馆公开数据集（metmuseum/openaccess），利用谷歌开源的SigLIP2视觉模型（google/siglip2-so400m-patch14-384）对馆藏艺术品图像进行特征提取，生成维度为1152的L2归一化向量。所有嵌入向量被精心封装为符合OEmbeddings规范的Record结构，并存储在attributes字段中。数据以Parquet格式存放于HuggingFace Datasets，涵盖馆藏编号、图片标识、模型版本、时间戳等关键元信息，便于高效读取与检索。

特点

数据集的显著特色在于其结构化嵌入表示与丰富的语义元数据相结合。每一行代表一件艺术品的特定图像，嵌入向量搭配subject_id与depiction_id，支持跨模态检索。attributes字段依据OEmbeddings规范，包含图片预览、网页链接、标题、版权行及机构信息，使得嵌入不仅适用于相似度搜索，更可直接用于构建可解释的推荐或发现系统。

使用方法

用户可通过HuggingFace的datasets库以一行代码加载数据集，指定split='train'即可获得完整的嵌入与属性。每一条记录内嵌了详尽的文本元数据，可直接用于图像相似性计算、聚类分析或构建语义搜索引擎。借助attributes.subject_title等字段，还能轻松将向量结果映射回可读的艺术品描述，实现从向量到知识的无缝衔接。

背景与挑战

背景概述

在数字人文与计算机视觉交叉领域，大规模艺术藏品图像的语义化表征一直是研究难点。大都会艺术博物馆作为全球顶级博物馆，其开放获取（Open Access）计划自2017年启动以来，为学术界提供了超过49万件艺术品的数字影像与元数据，催生了如MetDataset等代表性数据集。该数据集由大都会博物馆与HuggingFace社区合作构建，旨在利用先进的视觉语言模型将艺术品转化为标准化向量嵌入。其核心研究问题在于：如何通过深度学习模型（如Google的SigLIP2）将高维艺术图像压缩为低维、语义丰富的嵌入向量，并遵循OEmbeddings规范实现跨机构、跨数据集的互操作。该数据集的影响力体现在为艺术检索、风格聚类、跨文化比较等下游任务提供了可复现的基准嵌入，推动了数字图书馆与计算机视觉的深度融合。

当前挑战

该数据集面临的首要挑战是领域适配性：艺术图像不同于自然场景，其风格多样性（从古典油画到现代装置）、材质差异（如壁画与摄影）以及非视觉语义（如历史背景、作者意图）难以被通用视觉模型完整捕获，导致嵌入可能丢失关键美学特征。构建过程中，技术挑战集中在高维向量化与标准化冲突——SigLIP2输出的1152维嵌入需满足OEmbeddings规范的属性映射，而原始元数据（如'Title'、'creditLine'）存在多语言、缺失值与异构格式问题，需设计健壮的清洗与对齐流水线。此外，大规模嵌入存储与高效检索（如近似最近邻搜索）对计算资源提出严苛要求，且不同批次生成的时间戳带来的版本一致性维护亦构成工程难题。

常用场景

经典使用场景

在艺术与人工智能交叉研究的前沿领域，该数据集为跨模态检索任务提供了坚实的数据基础。研究者可借助Google SigLIP2模型预提取的高质量视觉嵌入，通过高效向量相似度计算，在海量馆藏作品中实现以图搜图、以文搜图等经典检索范式。其标准化的OEmbeddings规范确保了嵌入向量与元数据间的无缝对接，尤其适用于构建面向博物馆数字化藏品的语义搜索引擎，让用户在数十万件艺术品中精准定位风格、题材或构图相似的珍品。

衍生相关工作

该数据集的发布催生了一系列值得关注的衍生工作：基于其标准化嵌入，研究者开发了面向大都会博物馆全量藏品的快速最近邻检索Benchmark，用于评测不同嵌入模型在艺术领域的迁移效果。同时，有团队以其为训练种子，引入对比学习范式微调视觉语言模型，生成了更具艺术感知力的下游嵌入。此外，OEmbeddings规范的出现也促进了多媒体数据库go-embeddingsdb的采用，推动了博物馆、档案馆等GLAM机构在嵌入交换格式上的统一进程。

数据集最近研究