five

openaccess-embeddings-siglip2-oembeddings

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/metmuseum/openaccess-embeddings-siglip2-oembeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为metmuseum/openaccess-embeddings-siglip2-oembeddings,包含由google/siglip2-so400m-patch14-384模型对metmuseum/openaccess数据集生成的嵌入向量。这些嵌入向量按照go-embeddingsdb的Record结构进行组织,并遵循OEmbeddings规范。数据集包含以下字段:provider(提供者)、subject_id(主题ID)、depiction_id(描绘ID)、model(模型)、embeddings(嵌入向量)、created(创建时间)和attributes(属性)。attributes字段包含额外的元数据,如type(类型)、preview(预览)、subject_url(主题URL)、subject_title(主题标题)、subject_creditline(主题信用线)、provider_name(提供者名称)、provider_url(提供者URL)和depiction_url(描绘URL)。数据集采用cc0-1.0许可证,标签包括艺术、博物馆、嵌入向量、oembeddings和siglip2。

本数据集命名为metmuseum/openaccess-embeddings-siglip2-oembeddings,其包含由google/siglip2-so400m-patch14-384模型对metmuseum/openaccess数据集生成的嵌入向量(embeddings)。此类嵌入向量以go-embeddingsdb的记录(Record)结构进行组织,并遵循OEmbeddings规范。数据集涵盖如下字段:提供者(provider)、主题ID(subject_id)、描绘ID(depiction_id)、模型(model)、嵌入向量(embeddings)、创建时间(created)以及属性字段(attributes)。其中属性字段内含额外元数据,具体包括类型(type)、预览(preview)、主题URL(subject_url)、主题标题(subject_title)、主题信用线(subject_creditline)、提供者名称(provider_name)、提供者URL(provider_url)以及描绘URL(depiction_url)。本数据集采用CC0 1.0(cc0-1.0)许可证,标签涵盖艺术、博物馆、嵌入向量、OEmbeddings以及siglip2。
创建时间:
2026-05-04
原始信息汇总

根据您提供的数据集详情页面内容,以下是该数据集的概述:

数据集名称

metmuseum/openaccess-embeddings-siglip2-oembeddings

许可协议

CC0-1.0(公有领域)

数据集标签

  • 艺术(art)
  • 博物馆(museum)
  • 嵌入向量(embeddings)
  • OEmbeddings规范(oembeddings)
  • SigLIP2(siglip2)

数据集简介

本数据集包含使用 google/siglip2-so400m-patch14-384 模型对 metmuseum/openaccess 数据集 生成的嵌入向量。数据结构遵循 go-embeddingsdbRecord 结构,其中 attributes 字段符合 OEmbeddings 规范

数据列说明

列名 类型 说明
provider string 固定值 "metmuseum"
subject_id string 格式为 metmuseum:{objectID},表示艺术品
depiction_id string 格式为 metmuseum:{objectID}:primaryImage,表示图像
model string Hugging Face 模型ID
embeddings list<float32> L2归一化向量,维度为1152
created int64 生成该批次数据的Unix时间戳(秒)
attributes map<string, string> OEmbeddings规范字段(见下表)

attributes 字段说明

字段 是否必需 来源
type 固定值 "image"
preview 是(URI格式) primaryImageSmallprimaryImage
subject_url objectURL(大都会博物馆官网页面链接)
subject_title Title(艺术品标题)
subject_creditline creditLine(版权归属信息)
provider_name "The Metropolitan Museum of Art"
provider_url https://www.metmuseum.org/
depiction_url primaryImage(原始图像URL)

数据集配置

  • 配置名称default
  • 数据分片:训练集(train
  • 数据文件路径default/train/siglip2-oembeddings-*.parquet

加载数据示例

python from datasets import load_dataset

ds = load_dataset("metmuseum/openaccess-embeddings-siglip2-oembeddings", split="train") row = ds[0] print(row["subject_id"], row["model"], row["attributes"]["subject_title"])

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于大都会艺术博物馆公开数据集(metmuseum/openaccess),利用谷歌开源的SigLIP2视觉模型(google/siglip2-so400m-patch14-384)对馆藏艺术品图像进行特征提取,生成维度为1152的L2归一化向量。所有嵌入向量被精心封装为符合OEmbeddings规范的Record结构,并存储在attributes字段中。数据以Parquet格式存放于HuggingFace Datasets,涵盖馆藏编号、图片标识、模型版本、时间戳等关键元信息,便于高效读取与检索。
特点
数据集的显著特色在于其结构化嵌入表示与丰富的语义元数据相结合。每一行代表一件艺术品的特定图像,嵌入向量搭配subject_id与depiction_id,支持跨模态检索。attributes字段依据OEmbeddings规范,包含图片预览、网页链接、标题、版权行及机构信息,使得嵌入不仅适用于相似度搜索,更可直接用于构建可解释的推荐或发现系统。
使用方法
用户可通过HuggingFace的datasets库以一行代码加载数据集,指定split='train'即可获得完整的嵌入与属性。每一条记录内嵌了详尽的文本元数据,可直接用于图像相似性计算、聚类分析或构建语义搜索引擎。借助attributes.subject_title等字段,还能轻松将向量结果映射回可读的艺术品描述,实现从向量到知识的无缝衔接。
背景与挑战
背景概述
在数字人文与计算机视觉交叉领域,大规模艺术藏品图像的语义化表征一直是研究难点。大都会艺术博物馆作为全球顶级博物馆,其开放获取(Open Access)计划自2017年启动以来,为学术界提供了超过49万件艺术品的数字影像与元数据,催生了如MetDataset等代表性数据集。该数据集由大都会博物馆与HuggingFace社区合作构建,旨在利用先进的视觉语言模型将艺术品转化为标准化向量嵌入。其核心研究问题在于:如何通过深度学习模型(如Google的SigLIP2)将高维艺术图像压缩为低维、语义丰富的嵌入向量,并遵循OEmbeddings规范实现跨机构、跨数据集的互操作。该数据集的影响力体现在为艺术检索、风格聚类、跨文化比较等下游任务提供了可复现的基准嵌入,推动了数字图书馆与计算机视觉的深度融合。
当前挑战
该数据集面临的首要挑战是领域适配性:艺术图像不同于自然场景,其风格多样性(从古典油画到现代装置)、材质差异(如壁画与摄影)以及非视觉语义(如历史背景、作者意图)难以被通用视觉模型完整捕获,导致嵌入可能丢失关键美学特征。构建过程中,技术挑战集中在高维向量化与标准化冲突——SigLIP2输出的1152维嵌入需满足OEmbeddings规范的属性映射,而原始元数据(如'Title'、'creditLine')存在多语言、缺失值与异构格式问题,需设计健壮的清洗与对齐流水线。此外,大规模嵌入存储与高效检索(如近似最近邻搜索)对计算资源提出严苛要求,且不同批次生成的时间戳带来的版本一致性维护亦构成工程难题。
常用场景
经典使用场景
在艺术与人工智能交叉研究的前沿领域,该数据集为跨模态检索任务提供了坚实的数据基础。研究者可借助Google SigLIP2模型预提取的高质量视觉嵌入,通过高效向量相似度计算,在海量馆藏作品中实现以图搜图、以文搜图等经典检索范式。其标准化的OEmbeddings规范确保了嵌入向量与元数据间的无缝对接,尤其适用于构建面向博物馆数字化藏品的语义搜索引擎,让用户在数十万件艺术品中精准定位风格、题材或构图相似的珍品。
衍生相关工作
该数据集的发布催生了一系列值得关注的衍生工作:基于其标准化嵌入,研究者开发了面向大都会博物馆全量藏品的快速最近邻检索Benchmark,用于评测不同嵌入模型在艺术领域的迁移效果。同时,有团队以其为训练种子,引入对比学习范式微调视觉语言模型,生成了更具艺术感知力的下游嵌入。此外,OEmbeddings规范的出现也促进了多媒体数据库go-embeddingsdb的采用,推动了博物馆、档案馆等GLAM机构在嵌入交换格式上的统一进程。
数据集最近研究
最新研究方向
该数据集围绕大都会艺术博物馆开放藏品,采用SigLIP2视觉模型生成标准化嵌入向量,并遵循OEmbeddings规范封装,为艺术领域的多模态检索与语义匹配开辟了新范式。当前前沿研究方向聚焦于利用这类高维语义嵌入实现跨藏品、跨文化的图像相似性搜索,以及构建面向博物馆的智能推荐系统。结合数字人文与文化遗产数字化浪潮,该数据集为大规模艺术图像的无监督聚类、风格演变分析乃至AI策展提供了可复用的基础资源。其影响在于将顶尖计算机视觉模型与博物馆开放数据深度融合,推动AI驱动的知识发现与公众参与,在文化遗产保护、数字化教育及创意生成领域具有里程碑意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作