openaccess-embeddings-openclip-vitg14-oembeddings
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/metmuseum/openaccess-embeddings-openclip-vitg14-oembeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含由laion/CLIP-ViT-bigG-14-laion2B-s39B-b160K模型对metmuseum/openaccess数据集生成的嵌入向量,格式符合go-embeddingsdb的Record结构,并遵循OEmbeddings规范。数据集包含以下字段:provider(固定为metmuseum)、subject_id(艺术品ID)、depiction_id(图像ID)、model(模型ID)、embeddings(L2归一化的1280维向量)、created(生成时间戳)和attributes(包含OEmbeddings规范字段的映射)。attributes结构包括type(固定为image)、preview(预览图像URI)、subject_url(艺术品页面URL)、subject_title(艺术品标题)、subject_creditline(艺术品来源)、provider_name(固定为The Metropolitan Museum of Art)、provider_url(固定为https://www.metmuseum.org/)和可选的depiction_url(图像URL)。该数据集适用于艺术图像嵌入相关的任务和应用场景。
本数据集包含由laion/CLIP-ViT-bigG-14-laion2B-s39B-b160K模型对metmuseum/openaccess数据集生成的嵌入向量,其格式符合go-embeddingsdb的Record结构,并遵循OEmbeddings规范。
数据集包含以下字段:provider(固定取值为metmuseum)、subject_id(艺术品ID)、depiction_id(图像ID)、model(模型ID)、embeddings(经L2归一化的1280维向量)、created(生成时间戳)以及attributes(包含OEmbeddings规范字段的映射结构)。
其中attributes的结构包括:type(固定取值为image)、preview(预览图像URI)、subject_url(艺术品页面URL)、subject_title(艺术品标题)、subject_creditline(艺术品来源说明)、provider_name(固定取值为大都会艺术博物馆(The Metropolitan Museum of Art))、provider_url(固定取值为https://www.metmuseum.org/),以及可选字段depiction_url(图像URL)。
本数据集适用于艺术图像嵌入相关的任务与应用场景。
创建时间:
2026-05-04
原始信息汇总
数据集概述
数据集名称: metmuseum/openaccess-embeddings-openclip-vitg14-oembeddings
许可证: CC0-1.0
标签: art, museum, embeddings, oembeddings, openclip-vitg14
数据集来源
该数据集是基于 metmuseum/openaccess 数据集,使用 laion/CLIP-ViT-bigG-14-laion2B-s39B-b160K 模型生成的嵌入向量。
数据格式
数据集按 go-embeddingsdb 的 Record 结构组织,并在 attributes 字段内遵循 OEmbeddings 规范。
数据列说明
| 列名 | 类型 | 说明 |
|---|---|---|
provider |
string | 固定为 "metmuseum" |
subject_id |
string | 格式:metmuseum:{objectID},对应艺术品 |
depiction_id |
string | 格式:metmuseum:{objectID}:primaryImage,对应图像 |
model |
string | Hugging Face 模型 ID |
embeddings |
list<float32> | L2 归一化向量,维度 = 1280 |
created |
int64 | 生成该批次时的 Unix 纪元秒数 |
attributes |
map<string, string> | 包含 OEmbeddings 规范字段(详见下表) |
attributes 字段说明
| 字段名 | 是否必需 | 来源 |
|---|---|---|
type |
是 | 固定为 "image" |
preview |
是(URI) | primaryImageSmall 或 primaryImage |
subject_url |
是 | objectURL(对应 metmuseum.org 页面) |
subject_title |
是 | Title |
subject_creditline |
是 | creditLine |
provider_name |
是 | "The Metropolitan Museum of Art" |
provider_url |
是 | https://www.metmuseum.org/ |
depiction_url |
否 | primaryImage |
数据加载示例
python from datasets import load_dataset
ds = load_dataset("metmuseum/openaccess-embeddings-openclip-vitg14-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])
数据集配置
- 配置名称:
default - 数据文件路径:
default/train/openclip-vitg14-oembeddings-*.parquet - 数据划分:
train
搜集汇总
数据集介绍

构建方式
本数据集基于大都会艺术博物馆公开的开放获取藏品数据集`metmuseum/openaccess`,利用`laion/CLIP-ViT-bigG-14-laion2B-s39B-b160K`模型提取图像嵌入特征。所有嵌入向量均经过L2归一化处理,维度为1280。为便于存储与检索,数据被整理为符合`go-embeddingsdb`中`Record`结构的形式,并遵循`OEmbeddings`规范,将元信息存放于`attributes`字段中。数据以Parquet格式存储,支持高效随机访问与批量加载。
特点
该数据集的核心优势在于其标准化与互操作性。每条记录包含明确的提供者、主题与图像标识,并附有嵌入模型标识与生成时间戳,便于溯源与版本管理。`attributes`字段按照`OEmbeddings`规范组织,囊括图像类型、预览链接、原始对象URL、标题及版权声明等关键元信息,其中部分字段为必填,部分可选,兼顾完整性与灵活性。嵌入向量已归一化,可直接用于余弦相似度计算等下游任务。
使用方法
用户可通过HuggingFace的`datasets`库便捷加载数据,调用`load_dataset`函数并指定`split='train'`即可获得全部样本。返回的每一行以字典形式呈现,包含`subject_id`、`model`、`embeddings`等字段,`attributes`字段内嵌详细的元数据字典。开发者可根据`subject_id`或`attributes.subject_title`等键快速检索特定艺术品,亦可将嵌入向量提取后进行图像相似度搜索、聚类分析或与经典艺术品数据库进行跨模态匹配。
背景与挑战
背景概述
该数据集由大都会艺术博物馆(The Metropolitan Museum of Art)与开源社区合作创建,于2024年发布,旨在通过多模态嵌入技术打破艺术资源与计算视觉之间的壁垒。核心研究问题在于如何利用大规模预训练模型(如LAION的CLIP-ViT-bigG-14)对博物馆开放获取的艺术品图像进行高效语义编码,从而为艺术史分析、跨模态检索及文化遗产数字化提供标准化嵌入表示。作为首个遵循OEmbeddings规范的艺术品嵌入数据集,它整合了1280维的L2归一化特征向量与丰富的元数据(如藏品名称、来源链接),为学术研究、博物馆数字化项目及AI艺术创作领域提供可复用的数据基础,其影响力延伸至文化遗产保护与视觉计算交叉学科。
当前挑战
数据集面临的核心挑战在于解决艺术品图像多模态检索的领域难题:传统图像索引难以捕捉艺术品的文化语境与视觉语义多样性,而CLIP模型的跨模态能力在艺术领域仍需验证其泛化性。构建过程中,需处理来自大都会博物馆开放获取API的异构数据(如不同分辨率、光照条件及画作类型的图像),同时确保1280维嵌入向量在L2归一化后保持对细粒度艺术特征(如笔触肌理、色彩层次)的区分度。此外,与OEmbeddings规范的整合要求将非结构化元数据映射为结构化字段(如creditLine、primaryImageSmall),并解决数据版本控制与嵌入批处理时间戳的可复现性问题,这对文化遗产数据的长期维护构成技术挑战。
常用场景
经典使用场景
该数据集为大都会艺术博物馆(The Met)的开放藏品图像,提供了基于OpenCLIP ViT-bigG-14模型提取的深度视觉嵌入。其经典使用场景在于构建跨模态艺术检索系统:用户可通过自然语言描述,精准匹配相关艺术品;亦可利用嵌入空间的几何关系,实现“以图搜图”的视觉相似度排序。此外,该数据集便于研究者直接嵌入现有推荐框架,无需重复计算特征,即可通过内积运算高效定位语义相近的艺术品。
衍生相关工作
该数据集衍生了多项经典工作:一是基于对比学习的艺术图像-文本对齐模型,验证了OpenCLIP在文化资产领域的泛化能力;二是利用嵌入聚类构建了动态艺术风格谱系图,量化了印象派至立体主义的风格迁徙路径;三是结合注意力机制开发了“艺术DNA”可视化工具,高亮显示跨时代作品的局部视觉呼应。这些工作进一步拓展了数据集在可解释性分析与知识图谱构建中的应用边界。
数据集最近研究
最新研究方向
该数据集聚焦于利用OpenCLIP ViT-bigG-14模型对纽约大都会艺术博物馆开放馆藏图像进行特征嵌入提取,推动艺术领域大规模视觉语义检索与跨模态研究的深度发展。在文化机构数字化与AI深度融合的浪潮中,该工作通过标准化OEmbeddings规范,将高维视觉特征与藏品元数据(如标题、来源、信用证明)有机捆绑,为艺术作品的语义关联发现、相似性检索以及个性化推荐提供了可复用的向量化基础设施。其意义在于打破了传统艺术数据库仅依赖文本标签的局限,使机器能够从视觉内容层面捕捉艺术风格、构图规律与历史脉络中的隐性联系,进而助力学术策展、文化遗产保护与数字人文研究的前沿探索。
以上内容由遇见数据集搜集并总结生成



