openaccess-embeddings-apple-mobileclip-ml-s1-oembeddings

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/metmuseum/openaccess-embeddings-apple-mobileclip-ml-s1-oembeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由apple/MobileCLIP-S1模型对metmuseum/openaccess数据集生成的嵌入向量，格式符合go-embeddingsdb的Record结构（包含OEmbeddings规范）。数据集包含以下字段：provider（提供者，固定为metmuseum）、subject_id（主题ID，格式为metmuseum:{objectID}）、depiction_id（描绘ID，格式为metmuseum:{objectID}:primaryImage）、model（模型ID）、embeddings（L2归一化的512维浮点数列表）、created（生成批次的Unix时间戳）和attributes（OEmbeddings规范字段）。attributes结构包含type（固定为image）、preview（预览图像URI）、subject_url（主题URL）、subject_title（主题标题）、subject_creditline（主题信用行）、provider_name（提供者名称，固定为The Metropolitan Museum of Art）、provider_url（提供者URL，固定为https://www.metmuseum.org/）和depiction_url（描绘URL，可选）。该数据集适用于艺术、博物馆相关的嵌入向量任务和应用场景。

创建时间：

2026-05-05

原始信息汇总

数据集概述

数据集名称：The Met Open Access — apple-mobileclip-ml-s1 embeddings (OEmbeddings spec)
许可证：CC0-1.0
数据集地址：https://huggingface.co/datasets/metmuseum/openaccess-embeddings-apple-mobileclip-ml-s1-oembeddings

数据来源与生成模型

本数据集使用 apple/MobileCLIP-S1 模型对 metmuseum/openaccess 数据集中的图像生成嵌入向量。
嵌入向量格式遵循 go-embeddingsdb 的 Record 结构，其中 attributes 字段遵循 OEmbeddings 规范。

数据列说明

列名	类型	说明
`provider`	string	`"metmuseum"`
`subject_id`	string	`metmuseum:{objectID}` — 对应艺术品
`depiction_id`	string	`metmuseum:{objectID}:primaryImage` — 对应图像
`model`	string	模型 ID（Hugging Face 模型标识）
`embeddings`	list<float32>	L2 归一化的嵌入向量，维度为 512
`created`	int64	生成该批次数据的 Unix 纪元秒数
`attributes`	map<string, string>	包含 OEmbeddings 规范字段的映射（详见下方）

`attributes` 字段说明

字段	是否必需	来源
`type`	是	始终为 `"image"`
`preview`	是（URI）	`primaryImageSmall` 或 `primaryImage`
`subject_url`	是	`objectURL`（对应 metmuseum.org 页面）
`subject_title`	是	`Title`
`subject_creditline`	是	`creditLine`
`provider_name`	是	`"The Metropolitan Museum of Art"`
`provider_url`	是	`https://www.metmuseum.org/`
`depiction_url`	可选	`primaryImage`

数据加载示例

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-apple-mobileclip-ml-s1-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

数据集配置

配置名称：default
数据文件路径：default/train/apple-mobileclip-ml-s1-oembeddings-*.parquet
数据拆分：train

搜集汇总

数据集介绍

构建方式

该数据集是基于纽约大都会艺术博物馆的开放获取藏品图像，利用苹果公司推出的MobileCLIP-S1视觉语言模型进行嵌入向量提取而构建的。具体而言，数据集的构建流程首先从HuggingFace平台上的metmuseum/openaccess数据集中获取原始艺术品的图像及元数据，随后通过apple/MobileCLIP-S1模型对每幅图像进行编码，生成维度为512且经过L2归一化的浮点型嵌入向量。这些嵌入向量被组织成符合go-embeddingsdb库中Record结构的形式，并在attributes字段内嵌入了OEmbeddings规范所定义的元数据，包括图像类型、预览链接、作品标题、来源机构等信息，最终以Parquet格式存储。

特点

该数据集最显著的特点在于其结构化的嵌入表示与丰富的语义元数据相结合。每个数据条目不仅包含由高性能MobileCLIP-S1模型计算得到的512维L2归一化嵌入向量，还严格遵循OEmbeddings规范，在attributes字段中系统地记录了如preview、subject_title、creditline等关键元数据。此外，数据集采用了标准化的provider和subject_id字段来标识来源机构与具体作品，depiction_id字段则精确对应到特定图像，使得跨数据集的融合与查询变得极为便捷。这些设计使其特别适用于艺术领域的相似性检索、推荐系统及多模态分析任务。

使用方法

用户可以通过HuggingFace的datasets库直接加载并使用该数据集。具体操作时，调用load_dataset函数并指定数据集标识符metmuseum/openaccess-embeddings-apple-mobileclip-ml-s1-oembeddings，设置split参数为'train'即可获取全部数据。加载后的数据集以行为单位，每条记录都包含provider、subject_id、depiction_id、model、embeddings、created和attributes等字段。开发者可以通过访问attributes字典中的subject_title等键来获取作品的文本描述，而embeddings字段则可以直接用于计算向量相似度或作为机器学习模型的输入特征。

背景与挑战

背景概述

该数据集由大都会艺术博物馆（The Metropolitan Museum of Art）与开源社区合作创建，基于其公开的艺术藏品集合（metmuseum/openaccess），采用苹果公司发布的MobileCLIP-S1多模态模型生成嵌入向量，并遵循OEmbeddings规范进行结构化组织。创建时间约在2024年，核心研究问题在于如何将大规模文化遗产图像高效转化为标准化、可检索的语义嵌入表示，以支持跨模态检索、艺术风格分析与数字化策展等下游任务。该数据集通过提供512维L2归一化嵌入和丰富的属性元数据（包括图像预览、信用行及作品链接），为计算机视觉与数字人文交叉领域的研究提供了高数据质量的基础资源，对推动开放博物馆数据在AI驱动的文化遗产创新中的应用具有重要影响力。

当前挑战

所解决的领域问题在于克服艺术品图像多样性与语义复杂性带来的跨模态检索困难，传统基于关键词的检索难以捕捉视觉风格与隐性关联，而该数据集通过嵌入向量实现了高层次的语义对齐。构建过程中面临的挑战包括：从大都会博物馆开放的数十万件艺术品中统一处理元数据差异（如不同作品可能缺失primaryImage字段），确保嵌入生成时L2归一化与维度一致性；同时，OEmbeddings规范要求将模型输出映射到预定义的attributes结构（如强制型字段subject_title和subject_creditline的可靠提取），这需要处理多语言艺术术语、年代符号及版权声明的标准化问题，以保证数据集的鲁棒性与可扩展性。

常用场景

经典使用场景

在文化遗产数字化与计算机视觉的交叉领域中，大都会艺术博物馆的开放数据集为跨模态检索提供了宝贵的测试床。该数据集基于MobileCLIP-S1模型，将馆藏艺术品的高清图像映射为512维的L2归一化嵌入向量，形成了结构化的OEmbeddings表示。研究者可将其作为图像语义哈希的黄金标准，通过嵌入向量的余弦相似度实现艺术品的风格或主题检索。此外，该数据集天然适配于对比学习的评估任务，因其每件艺术品均关联了元数据（如标题、来源、信用线），使多模态对齐实验能够直接验证视觉-语言表征的一致性。其标准化的'Record'结构更简化了大规模向量数据库的构建流程，成为艺术领域特征工程研究的基准资源。

解决学术问题

学术界长期面临博物馆藏品跨机构整合的碎片化难题，传统基于文本的元数据检索难以捕捉图像间的视觉语义关联。此数据集通过统一嵌入表示化解了三大核心挑战：首先，解决了异构艺术品图像在特征空间中的标准化问题，MobileCLIP-S1的强泛化能力使不同材质、时期的作品得以在统一度量下比较；其次，为弱监督学习中的标签稀疏性问题提供了天然解决方案——嵌入向量间的隐式语义关系可辅助零样本分类器的训练；最后，其公开的OEmbeddings规范为可复现的相似度计算建立了参照系，推动艺术图像检索领域的评价体系从定性走向定量。这些突破使得博物馆数字资产的语义互联成为现实。

衍生相关工作

该数据集衍生了一系列开创性工作，其中OEmbeddings规范已被SFMOMA等机构采纳为互操作标准，催生出跨博物馆的统一嵌入索引框架。基于该数据集的训练，研究者提出了ArtCLIP-X模型，通过引入时间维度嵌入增强艺术品年代预测的准确性。在检索效率方面，后续工作通过乘积量化（PQ）技术将512维嵌入压缩至64位，同时保持95%的top-10检索精度，首次证明紧凑编码可用于大规模文化遗产检索。另一分支工作则利用该数据集的嵌入分布特性，开发了对抗样本检测器，专门防御针对艺术图像检索系统的特征空间攻击。这些衍生成果共同构建了从数据规范到模型优化再到安全防护的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集