Metadata-Inference

Hugging Face2026-04-02 更新2026-04-03 收录

下载链接：

https://huggingface.co/datasets/Carolyn-Jiang/Metadata-Inference

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个跨文化基准，用于评估视觉-语言模型在从图像中推断结构化文化元数据的能力。数据集包含来自不同文化和地区的遗产对象图像，每个图像配有元数据字段，包括文化、时期、起源和创作者。数据集按文化和对象类型组织，包含完整的图像和元数据文件。评估协议采用LLM-as-Judge框架，通过比较模型预测与真实元数据来评估性能，包括精确匹配准确率、部分匹配率和属性级准确率等指标。该数据集适用于文化元数据推断、跨文化分析和视觉-语言模型评估等任务。

创建时间：

2026-04-01

原始信息汇总

数据集概述

基本信息

数据集名称: Metadata Inference Benchmark
许可证: MIT
主要语言: 英语 (en)
标签: cultural-heritage, vision-language, multimodal, metadata-inference, llm-as-judge
数据规模: n<1K

数据集目的

这是一个用于评估视觉语言模型在从图像推断结构化文化元数据任务上的跨文化基准。给定一个文化遗产对象的输入图像，模型必须预测以下属性：

文化 (culture)
时期 (period)
起源 (origin)
创作者 (creator)

该任务不同于标准图像描述，它要求潜在的文化推理，因为关键属性无法直接从视觉特征中观察到。

数据集结构

解压 exp_data.zip 文件后，数据集目录结构如下：

exp_data/ ├── Americas/ ├── East_Asia/ ├── Ancient_Mediterranean/ ├── Europe/ ├── ceramics/ ├── painting/ ├── metalwork/ ├── sculpture/ ├── object_id/ ├── img_00.jpg └── metadata.json

评估方法与结果

评估采用 LLM-as-Judge 框架。

输入: 模型预测结果与真实元数据。
输出标签: 正确 (correct)、部分正确 (partial)、错误 (incorrect)。
评估指标: 精确匹配准确率、部分匹配率、属性级准确率、跨文化分析。

示例评估结果

总体性能指标示例如下：

总有效样本数: 711
完全正确数: 10
部分正确数: 468
错误数: 233
总体准确率: 0.014
部分正确率: 0.658

属性级准确率：

标题准确率: 0.539
文化准确率: 0.367
时期准确率: 0.328
起源准确率: 0.241
创作者准确率: 0.488

跨文化分析结果涵盖四个文化区域：美洲 (Americas)、东亚 (East_Asia)、古地中海 (Ancient_Mediterranean)、欧洲 (Europe)，并分别提供了上述各项指标的详细数据。

相关文件

exp_data.zip: 包含完整数据集（图像与元数据）。
model_output/: 存储不同模型的原始预测结果。
result/: 存储聚合的评估结果（指标），包括 *_metrics.json 文件。
run_open_async.py: 基于API模型的推理脚本。
run_close_async.py: 开源权重模型的推理脚本。

搜集汇总

数据集介绍

构建方式

在文化遗产数字化研究领域，Metadata-Inference数据集通过精心筛选与组织构建而成。该数据集涵盖美洲、东亚、古地中海及欧洲四大文化区域，每个区域进一步细分至陶瓷、绘画、金属工艺、雕塑等具体艺术门类。每个文化遗产对象均以图像形式呈现，并附有包含文化归属、历史时期、地理起源及创作者等关键属性的结构化元数据。数据集的构建过程注重跨文化代表性，确保样本在视觉特征与隐含文化信息之间形成复杂映射，为评估模型的文化推理能力奠定基础。

特点

该数据集的核心特点在于其强调对文化遗产图像中非显性文化属性的推断能力。不同于常规的图像描述任务，它要求模型从视觉线索中挖掘潜在的文化、历史与地理信息，实现跨文化的隐性知识推理。数据集结构层次分明，按文化与艺术门类组织，便于进行细粒度的性能分析。评估框架创新性地采用大语言模型作为评判者，对预测结果进行正确、部分正确或错误的分类，并支持属性级准确率与跨文化对比分析，为多模态模型的文化感知能力提供了严谨的测评基准。

使用方法

使用该数据集时，研究人员可通过提供的脚本对视觉语言模型进行推理测试。模型需接收文化遗产图像作为输入，并输出包含标题、文化、时期、起源与创作者的结构化预测。评估阶段将模型预测与真实元数据一同输入基于大语言模型的评判框架，自动生成准确性度量。结果分析可从整体性能、分文化区域表现以及各属性推断准确率等多个维度展开，从而系统评估模型在跨文化语境下的元数据推理能力与局限性。

背景与挑战

背景概述

Metadata-Inference数据集于近年发布，旨在构建一个跨文化基准，专门用于评估视觉语言模型在从文化遗产图像中推断结构化元数据方面的能力。该数据集由专注于文化遗产与多模态人工智能的研究团队创建，其核心研究问题聚焦于模型如何通过潜在的文化推理，从视觉特征中识别并预测文物的文化归属、历史时期、地理起源及创作者等非直接可见的属性。这一研究填补了传统图像描述任务与深层文化理解之间的空白，为文化遗产的数字化保护与智能分析提供了重要的评估工具，推动了多模态人工智能在人文社科领域的交叉应用。

当前挑战

该数据集旨在解决文化遗产图像中结构化元数据自动推断的挑战，其核心问题在于模型需超越表层视觉特征，进行深层的跨文化语义理解与历史语境推理。构建过程中的挑战包括：跨文化样本的均衡收集与标注，确保不同地域与时期文物的代表性；元数据标注依赖于领域专家知识，存在主观性与一致性难题；以及评估时采用大语言模型作为评判者，其评判标准与人类专家认知的校准面临复杂性。这些挑战共同凸显了在多模态人工智能中融入人文知识与实现可靠评估的难度。

常用场景

经典使用场景

在文化遗产数字化领域，Metadata-Inference数据集为评估视觉语言模型在跨文化背景下的元数据推理能力提供了基准。该数据集的核心应用场景是要求模型根据文物图像，推断出文化归属、历史时期、地理起源及创作者等结构化元数据。这一任务超越了传统的图像描述，要求模型具备从视觉特征中提取潜在文化线索的能力，从而模拟人类专家在文物鉴定中的隐性知识推理过程。

解决学术问题

该数据集主要解决了多模态人工智能在文化遗产分析中的关键学术问题，即如何让模型从视觉输入中理解并推断非直接可见的文化属性。它挑战了现有视觉语言模型在跨文化语义理解和历史上下文推理方面的局限性，为研究模型的文化偏见、领域适应性和细粒度属性识别提供了量化评估框架。通过引入LLM-as-Judge的评估协议，数据集促进了自动化评估方法在复杂文化推理任务中的标准化应用。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在提升视觉语言模型的文化感知能力上。研究者们开发了针对跨文化元数据预测的专用架构，并利用该基准进行了广泛的模型比较分析。相关工作还探索了结合外部知识库的增强方法，以改善模型在特定文化领域的表现。这些努力共同推动了多模态人工智能在文化遗产领域的算法进步与评估范式发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集