openaccess-embeddings-apple-mobileclip-ml-s0-oembeddings

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/metmuseum/openaccess-embeddings-apple-mobileclip-ml-s0-oembeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为metmuseum/openaccess-embeddings-apple-mobileclip-ml-s0-oembeddings，包含由apple/MobileCLIP-S0模型对metmuseum/openaccess数据集生成的嵌入向量。数据集结构遵循go-embeddingsdb的Record结构，并符合OEmbeddings规范。数据字段包括provider（提供者）、subject_id（主题ID）、depiction_id（描绘ID）、model（模型）、embeddings（嵌入向量，L2归一化，维度为512）、created（创建时间，Unix时间戳）和attributes（属性，包含OEmbeddings规范字段）。attributes结构包含type（类型）、preview（预览图URI）、subject_url（主题URL）、subject_title（主题标题）、subject_creditline（主题信用信息）、provider_name（提供者名称）、provider_url（提供者URL）和depiction_url（描绘URL）等字段。数据集适用于艺术、博物馆相关的嵌入向量任务，采用cc0-1.0许可证。

创建时间：

2026-05-05

原始信息汇总

数据集概述：metmuseum/openaccess-embeddings-apple-mobileclip-ml-s0-oembeddings

基本信息

许可协议：CC0-1.0（公共领域）
数据集名称：The Met Open Access — apple-mobileclip-ml-s0 embeddings (OEmbeddings spec)
标签：art, museum, embeddings, oembeddings, apple-mobileclip-ml-s0

数据集描述

该数据集包含基于 apple/MobileCLIP-S0 模型对 metmuseum/openaccess 数据集生成的嵌入向量。数据格式符合 go-embeddingsdb 的 Record 结构，其中 attributes 字段遵循 OEmbeddings 规范。

数据列说明

列名	类型	说明
`provider`	string	固定为 `"metmuseum"`
`subject_id`	string	格式：`metmuseum:{objectID}`，代表艺术品
`depiction_id`	string	格式：`metmuseum:{objectID}:primaryImage`，代表图像
`model`	string	Hugging Face 模型 ID
`embeddings`	list<float32>	L2 归一化后的嵌入向量，维度为 512
`created`	int64	生成该批次数据的 Unix 纪元秒数
`attributes`	map<string, string>	OEmbeddings 规范字段（见下方）

`attributes` 字段结构

字段	是否必需	来源
`type`	是	固定为 `"image"`
`preview`	是（URI）	`primaryImageSmall` 或 `primaryImage`
`subject_url`	是	`objectURL`（metmuseum.org 页面链接）
`subject_title`	是	`Title`（艺术品标题）
`subject_creditline`	是	`creditLine`（信用行信息）
`provider_name`	是	`"The Metropolitan Museum of Art"`
`provider_url`	是	`https://www.metmuseum.org/`
`depiction_url`	可选	`primaryImage`（原始图像链接）

数据加载方式

数据集只有一个配置 default，且仅包含 train 分片。数据文件路径为：default/train/apple-mobileclip-ml-s0-oembeddings-*.parquet。

加载示例（Python）

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-apple-mobileclip-ml-s0-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

搜集汇总

数据集介绍

构建方式

本数据集基于大都会艺术博物馆的开放藏品数据集（metmuseum/openaccess），利用Apple MobileCLIP-S0模型提取每件艺术品的图像嵌入表示，并遵循OEmbeddings规范进行结构化封装。数据处理过程中，模型输出经过L2归一化处理，得到维度为512的浮点数向量。每位记录均包含提供者标识、艺术品ID、图像ID、模型名称、嵌入向量、批次生成时间戳以及符合OEmbeddings协议的元数据属性字段，涵盖了图像类型、预览链接、主题URL、标题、信用信息及博物馆名称等关键信息。最终数据以Parquet格式存储并发布。

使用方法

使用该数据集极为便捷，用户可通过HuggingFace Datasets库直接加载，一行代码即可获取训练集数据。每个样本以字典形式返回，包含结构化的字段名，如subject_id、model和embeddings。通过attributes字段可访问OEmbeddings定义的元数据，如艺术品标题。该数据集支持多种应用场景，包括基于embedding的近邻搜索、艺术品的多模态特征融合、以及利用元数据字段进行过滤和排序。推荐结合向量数据库或近似最近邻算法库（如FAISS）进行高效检索实践。

背景与挑战

背景概述

该数据集由大都会艺术博物馆（The Metropolitan Museum of Art）与HuggingFace社区合作创建，发布于2024年，旨在将馆藏开放获取（Open Access）艺术品图像转化为可用于机器学习的标准化嵌入表示。核心研究问题在于如何利用先进的视觉语言模型（如Apple MobileCLIP-S0）为海量博物馆藏品生成高质量的语义嵌入，从而促进艺术品的跨模态检索、分类与相似性分析。该数据集采用OEmbeddings规范，为每件艺术品提供了512维的L2归一化嵌入向量，并附带了详尽的元数据字段（如标题、信用线、预览图等），为数字人文、艺术史计算和计算机视觉交叉领域的研究提供了标准化数据基础，对推动文化遗产的数字化智能分析具有重要影响力。

当前挑战

该数据集所解决的领域挑战在于：传统的艺术品检索依赖文本标签或人工标注，难以捕捉视觉语义的深层关联，而该数据集通过嵌入技术将图像转化为可计算的高维向量，使得基于语义的跨模态匹配成为可能，从而提升了大规模文化遗产数据中的内容发现效率。构建过程中面临的挑战包括：处理来自大都会博物馆数万件藏品图像的异构性和分辨率差异，确保MobileCLIP-S0模型能够稳健地提取统一维度的嵌入特征；设计兼容OEmbeddings规范的元数据映射结构，以无损保留原始馆藏信息（如对象ID、图片链接、展览标题等）；以及协调开源许可（CC0-1.0）与数据质量审核，确保嵌入结果在学术与商业应用中具有可靠性和可复现性。

常用场景

经典使用场景

在文化遗产数字化与多模态检索领域，该数据集为研究者提供了大都会艺术博物馆开放藏品的高质量视觉表征。通过Apple MobileCLIP-S0模型提取的512维L2归一化向量，将每件艺术品的图像信息映射至紧凑的嵌入空间，使得基于语义相似度的跨模态搜索成为可能。研究者可借助这些预计算嵌入快速构建艺术品的相似性检索系统，或将其作为下游多模态任务的特征基底，为数字人文领域的知识发现开辟了新路径。

解决学术问题

该数据集有效解决了大规模艺术品集合中语义鸿沟与检索效率低下的学术瓶颈。传统基于文本标注或手工特征的检索方法难以捕捉艺术品的视觉内涵，而MobileCLIP-S0嵌入在视觉-语言对齐空间中实现了概念层面的语义关联，使得关联推理、风格聚类、年代鉴别等任务可以基于嵌入向量的几何关系展开。这一资源降低了跨学科研究者利用深度学习挖掘艺术史知识的门槛，推动了计算美学与数字策展学的发展。

实际应用

在实际应用中，该嵌入数据集可支撑博物馆数字化公共服务平台的智能搜索功能，使观众通过自然语言描述（如“描绘花园的19世纪油画”）精准定位馆藏作品。同时，它赋能虚拟展览的自动化策展，通过嵌入相似度计算将风格或主题一致的艺术品聚合展示。此外，该数据还可用于艺术家作品的自动归类与标签推荐，优化博物馆后台的藏品管理效率，为公众提供沉浸式的艺术探索体验。

数据集最近研究