openaccess-embeddings-dinov2-giant-oembeddings

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/metmuseum/openaccess-embeddings-dinov2-giant-oembeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由facebook/dinov2-giant模型对metmuseum/openaccess数据集生成的嵌入向量，格式符合go-embeddingsdb的Record结构（包含OEmbeddings规范）。数据集字段包括provider（固定为metmuseum）、subject_id（艺术品标识符）、depiction_id（图像标识符）、model（模型ID）、embeddings（L2归一化的1536维向量）、created（生成时间戳）和attributes（OEmbeddings规范字段）。attributes结构包含type（固定为image）、preview（预览图像URI）、subject_url（艺术品页面URL）、subject_title（艺术品标题）、subject_creditline（艺术品来源）、provider_name（固定为The Metropolitan Museum of Art）、provider_url（固定为https://www.metmuseum.org/）和可选的depiction_url（图像URL）。适用于艺术图像嵌入相关的任务和应用场景。

创建时间：

2026-05-04

原始信息汇总

数据集概述

数据集名称：metmuseum/openaccess-embeddings-dinov2-giant-oembeddings
许可证：CC0-1.0（公共领域）
标签：art, museum, embeddings, oembeddings, dinov2-giant

数据集内容

该数据集是基于 facebook/dinov2-giant 模型对 metmuseum/openaccess 数据集生成的嵌入向量，并按照 go-embeddingsdb 的 Record 结构（内部使用 OEmbeddings 规范）进行格式化。

数据列说明

列名	类型	说明
`provider`	string	固定为 `"metmuseum"`
`subject_id`	string	格式为 `metmuseum:{objectID}`，表示艺术品
`depiction_id`	string	格式为 `metmuseum:{objectID}:primaryImage`，表示图像
`model`	string	Hugging Face 模型 ID
`embeddings`	list<float32>	L2 归一化后的嵌入向量，维度为 1536
`created`	int64	生成该批次数据时的 Unix 时间戳（秒）
`attributes`	map<string, string>	OEmbeddings 规范字段，详情见下表

`attributes` 结构

字段	必需	来源
`type`	是	始终为 `"image"`
`preview`	是（URI）	图像：`primaryImageSmall` 或 `primaryImage`
`subject_url`	是	艺术品在 metmuseum.org 的页面 URL（`objectURL`）
`subject_title`	是	艺术品标题（`Title`）
`subject_creditline`	是	艺术品版权行（`creditLine`）
`provider_name`	是	`"The Metropolitan Museum of Art"`
`provider_url`	是	`https://www.metmuseum.org/`
`depiction_url`	可选	原始图像 URL（`primaryImage`）

数据加载示例

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-dinov2-giant-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

搜集汇总

数据集介绍

构建方式

在博物馆数字化与人工智能深度融合的背景下，该数据集基于纽约大都会艺术博物馆的公开藏品图像，借助Meta发布的视觉基础模型facebook/dinov2-giant提取特征嵌入。其构建严格遵循OEmbeddings规范，将高维向量与元数据整合为结构化记录，每条数据包含提供方标识、藏品编号、图像编号、模型信息、L2归一化后的1536维嵌入向量、生成时间戳以及按规范封装的属性字段（如图像类型、预览链接、藏品名称等），并最终以Parquet格式存储，便于高效存取。

特点

数据集的核心特色在于标准化与高兼容性：所有嵌入向量均经过L2归一化处理，确保计算余弦相似度时的准确性；采用OEmbeddings规范统一描述图像、藏品及提供方信息，使得该数据集能无缝对接go-embeddingsdb等检索系统。此外，基于dinov2-giant这一强大的自监督视觉模型，嵌入具备丰富的语义表征能力，特别适用于艺术品检索、风格聚类及跨模态匹配等场景。

使用方法

使用者可以通过HuggingFace的datasets库轻松加载，仅需一行代码即可获取训练集，并直接访问每条记录的藏品标识、模型类型及属性字段。样本以Parquet格式分片存储，支持惰性加载与高效迭代。若需进行相似性检索，可直接利用attributes中的subject_title和preview字段进行结果展示，同时结合模型标识与生成时间进行版本管理，适用于构建博物馆藏品智能搜索系统或推荐引擎。

背景与挑战

背景概述

在数字人文与艺术计算领域，大规模博物馆藏品的高效检索与语义理解一直是核心研究命题。大都会艺术博物馆（The Metropolitan Museum of Art）于2017年启动开放获取（Open Access）计划，向公众开放其馆藏影像与元数据，催生了诸多基于此的数据集与模型。2023年，Meta AI发布的DINOv2模型作为自监督视觉表征学习的里程碑，首次在无标签条件下生成了具备高度语义对齐能力的特征。由大都会博物馆与旧金山现代艺术博物馆（SFMOMA）联合构建的“openaccess-embeddings-dinov2-giant-oembeddings”数据集，正是在此背景下应运而生。该数据集利用DINOv2-giant模型对大都会博物馆开放获取图像进行嵌入提取，并遵循OEmbeddings规范进行结构化封装，为艺术图像检索、跨模态匹配及博物馆数字化研究提供了标准化的嵌入基准，显著推动了可计算艺术史的发展。

当前挑战

该数据集所解决的领域问题在于，传统艺术图像检索依赖人工标注的元数据（如标题、材质、时期），难以捕捉视觉语义的深层关联，而一般视觉模型生成的嵌入又缺乏针对艺术品的细粒度一致性。构建过程中面临的首要挑战是数据异构性：大都会博物馆的图像来源涵盖油画、雕塑、织物、陶瓷等，材质与光照条件差异极大，要求嵌入模型具备强鲁棒性。其次是规模与存储效率：数据集包含逾45万件物品的嵌入，每一嵌入为1536维L2归一化向量，如何在保证检索精度的同时实现高效的批量压缩与存储格式设计（如Parquet）成为关键。此外，OEmbeddings规范的引入要求将元数据与嵌入严格对齐，确保结构化字段（如preview、subject_url）的完整性与可追溯性，这对数据管线的一致性提出了严苛要求。

常用场景

经典使用场景

大都会艺术博物馆的开放访问藏品数据集，经由先进的dinov2-giant视觉模型提取特征向量，构建了高维语义嵌入空间。该数据集在跨模态检索任务中展现出卓越价值，研究者可通过计算嵌入向量间的余弦相似度，实现以图搜图、内容关联推荐等经典场景。其精心设计的OEmbeddings规范结构，将艺术作品图像转化为标准化向量表示，便于与下游机器学习系统无缝集成，为数字人文领域的量化研究提供了坚实基础。

实际应用

在实际应用中，该数据集赋能博物馆数字展厅的智能导览系统，观众可通过拍摄展品照片快速获取关联作品信息。文创产业中，设计师能基于视觉相似性检索获取灵感素材，实现传统元素的现代化演绎。电商平台可部署艺术品风格推荐算法，向用户推送符合审美偏好的装饰画或家居产品。此外，该嵌入数据集为大规模艺术数据库的模糊匹配去重、版权溯源等商业场景提供了高效的向量化解决方案。

衍生相关工作

基于该嵌入数据集衍生出一系列创新工作，包括艺术风格迁移的条件生成模型、基于对比学习的跨博物馆藏品关联系统，以及融合视觉嵌入与知识图谱的艺术品语义增强框架。学术界还涌现出利用该数据集进行深度度量学习的研究，改进艺术领域小样本分类器的性能。这些工作共同构建了从底层特征到高层语义的艺术计算生态，推动着文化遗产数字化保护与智能传播的技术边界。

以上内容由遇见数据集搜集并总结生成