openaccess-embeddings-apple-mobileclip-oembeddings

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/metmuseum/openaccess-embeddings-apple-mobileclip-oembeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由apple/MobileCLIP-S2-OpenCLIP模型对metmuseum/openaccess数据集生成的嵌入向量，格式符合go-embeddingsdb的Record结构（包含OEmbeddings规范）。数据集包含以下字段：provider（提供者，固定为metmuseum）、subject_id（主题ID，格式为metmuseum:{objectID}）、depiction_id（描绘ID，格式为metmuseum:{objectID}:primaryImage）、model（模型ID）、embeddings（L2归一化的512维浮点数列表）、created（生成批次的Unix时间戳）和attributes（OEmbeddings规范字段）。attributes结构包含type（固定为image）、preview（预览图像URI）、subject_url（主题页面URL）、subject_title（主题标题）、subject_creditline（主题信用行）、provider_name（提供者名称，固定为The Metropolitan Museum of Art）、provider_url（提供者URL，固定为https://www.metmuseum.org/）和depiction_url（描绘URL，可选）。该数据集适用于艺术和博物馆相关的嵌入任务。

本数据集包含由apple/MobileCLIP-S2-OpenCLIP模型针对大都会艺术博物馆开放获取数据集（metmuseum/openaccess）生成的嵌入向量（embeddings），其格式符合go-embeddingsdb的Record结构，且兼容OEmbeddings规范。数据集包含以下字段：provider（提供者，固定取值为metmuseum）、subject_id（主题ID，格式为`metmuseum:{objectID}`）、depiction_id（描绘ID，格式为`metmuseum:{objectID}:primaryImage`）、model（模型标识符）、embeddings（经L2归一化的512维浮点数列表）、created（生成批次的Unix时间戳）以及attributes（符合OEmbeddings规范的扩展字段）。其中attributes字段的内部结构包含：type（固定取值为image）、preview（预览图像统一资源标识符（URI））、subject_url（主题页面统一资源定位符（URL））、subject_title（主题标题）、subject_creditline（主题信用标注）、provider_name（提供者名称，固定为大都会艺术博物馆（The Metropolitan Museum of Art））、provider_url（提供者URL，固定为`https://www.metmuseum.org/`）以及depiction_url（可选的描绘URL）。本数据集适用于艺术与博物馆相关的嵌入任务。

创建时间：

2026-05-04

原始信息汇总

数据集概述：metmuseum/openaccess-embeddings-apple-mobileclip-oembeddings

基本信息

许可协议：CC0-1.0（公共领域贡献）
数据集名称：The Met Open Access — apple-mobileclip embeddings (OEmbeddings spec)
数据集标签：art, museum, embeddings, oembeddings, apple-mobileclip
数据集配置：
- 配置名称：default
- 数据文件路径：default/train/apple-mobileclip-oembeddings-*.parquet（仅包含训练集）

数据集内容

该数据集包含由 apple/MobileCLIP-S2-OpenCLIP 模型对 metmuseum/openaccess 数据集生成的嵌入向量。嵌入格式符合 go-embeddingsdb 的 Record 结构，其中 attributes 字段遵循 OEmbeddings 规范。

数据结构

列名	类型	说明
`provider`	string	固定为 `"metmuseum"`
`subject_id`	string	格式为 `metmuseum:{objectID}`，代表艺术品
`depiction_id`	string	格式为 `metmuseum:{objectID}:primaryImage`，代表图像
`model`	string	Hugging Face 模型 ID
`embeddings`	list<float32>	L2 归一化后的 512 维向量
`created`	int64	批次生成时的 Unix 纪元秒数
`attributes`	map<string, string>	OEmbeddings 规范字段（详见下表）

`attributes` 字段说明

字段	必填	来源
`type`	是	固定为 `"image"`
`preview`	是（URI）	来自 `primaryImageSmall` 或 `primaryImage`
`subject_url`	是	来自 `objectURL`（metmuseum.org 页面链接）
`subject_title`	是	来自 `Title`
`subject_creditline`	是	来自 `creditLine`
`provider_name`	是	固定为 `"The Metropolitan Museum of Art"`
`provider_url`	是	固定为 `https://www.metmuseum.org/`
`depiction_url`	可选	来自 `primaryImage`

数据加载示例

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-apple-mobileclip-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

搜集汇总

数据集介绍

构建方式

该数据集基于纽约大都会艺术博物馆的开放获取藏品库（metmuseum/openaccess）构建，利用Apple MobileCLIP-S2-OpenCLIP模型为每件艺术品的图像生成嵌入向量。嵌入数据按照go-embeddingsdb的Record结构进行格式化，其中attributes字段遵循OEmbeddings规范，包含图像类型、预览链接、作品标题、信用额度等元信息。数据集以Parquet格式存储，每个批次记录生成时间戳，确保嵌入的可追溯性与一致性。

特点

数据集的核心亮点在于其多模态桥梁特性：将视觉艺术藏品转化为512维L2归一化嵌入向量，支持高效的跨模态检索与相似性分析。每个嵌入关联的OEmbeddings属性字段提供了丰富的上下文信息，如作品页面URL、预览小图及信用说明，便于用户直接链接到艺术品的原始记录。此外，数据集采用标准化结构，涵盖提供方、作品ID、图像ID、模型标识等关键列，为下游应用提供高度可操作的语义基础。

使用方法

用户可通过HuggingFace Datasets库便捷加载此数据集，调用load_dataset函数并指定训练集分割即可获取嵌入记录。每条记录以字典形式返回，支持直接访问subject_id、model等顶层字段，以及attributes中的嵌套元数据。典型应用包括艺术品的语义搜索、聚类分析或作为视觉语言模型的预训练数据。数据以高效的Parquet格式存储，适合大规模批量处理与流式加载。

背景与挑战

背景概述

该数据集由纽约大都会艺术博物馆（The Metropolitan Museum of Art）与开源社区合作创建，于近期发布在HuggingFace平台上。其核心研究问题在于如何将大规模博物馆藏品图像转化为可供机器学习模型高效利用的向量嵌入表示，从而推动艺术领域与计算机视觉的交叉研究。数据集基于大都会博物馆开放存取项目（Open Access）中的数十万件艺术品图像，采用苹果公司开发的MobileCLIP-S2-OpenCLIP模型生成512维L2归一化嵌入向量，并遵循OEmbeddings规范进行结构化存储。作为首个聚焦于顶级博物馆藏品的高质量嵌入数据集，它为艺术图像检索、风格分类、跨模态分析等任务提供了标准化基准，显著降低了研究者处理海量艺术数据的技术门槛，对数字人文与AI艺术研究具有重要推动价值。

当前挑战

该数据集解决的领域挑战主要包括：博物馆藏品标注维度单一（如仅有标题、时代等文本描述），缺乏可直接用于计算机视觉任务的语义表示；传统图像特征提取方法难以捕捉艺术作品中复杂的风格、构图与象征意义。在构建过程中，面临的核心挑战在于：大规模艺术图像的质量参差不齐，部分藏品存在拍摄角度畸形、光照不均或修复痕迹等干扰因素，影响嵌入一致性；生成嵌入的MobileCLIP模型主要面向自然图像训练，对非西方艺术、宗教器物等特殊类别的表征能力需进一步验证；同时，数据集需遵循OEmbeddings规范对元数据字段进行严格映射，确保与go-embeddingsdb生态的互操作性，这对数据清洗与格式标准化提出了极高要求。

常用场景

经典使用场景

在大规模艺术图像检索与语义理解研究中，该数据集凭借由Apple MobileCLIP-S2-OpenCLIP模型所提取的512维L2归一化嵌入向量，成为连接文本与视觉模态的经典桥梁。研究者通常利用其预计算的高质量表征，对纽约大都会艺术博物馆海量藏品进行跨模态相似度搜索，通过计算查询文本或图像与嵌入库的余弦距离，快速定位最匹配的艺术作品。此外，该数据集还广泛用于零样本分类与聚类任务，例如根据标题、创作者或年代自动归纳艺术风格流派，为传统艺术史分析提供计算化实证基础。

实际应用

在文化遗产数字化保护与公众教育实践中，该数据集支撑着智能导览系统与虚拟策展平台的构建。博物馆策展团队可利用嵌入向量自动发现主题、色彩或构图相近的藏品，辅助展览布局设计；在线画廊则能基于自然语言描述向参观者推荐个性化艺术品，例如输入'描绘田园风光的19世纪油画'即可精准筛选目标藏品。同时，该数据配合OEmbeddings规格，允许多源博物馆数据库（如大都会、阿姆斯特丹国立博物馆）生成统一向量索引，实现跨机构的协作式艺术知识图谱。

衍生相关工作

该数据集推动了一系列开创性工作的诞生，包括基于维度衰减与向量量化的高效艺术嵌入压缩方案，以及利用Transformer架构对多模态表示进行细粒度校准的MoMA-Adapt系列模型。开发者工具方面，围绕其与go-embeddingsdb的适配，衍生出可离线部署的ArtRec嵌入式检索库和流式元数据同步管道；学术社区中，研究者将其作为训练集，探究CLIP家族在博物馆藏品这一长尾分布数据上的领域偏移效应，并催生了多篇关于艺术知识幻觉检测与可解释性嵌入可视化的高水平论文。

以上内容由遇见数据集搜集并总结生成