MetaphorVU-Bench

github2026-05-31 更新2026-06-01 收录

下载链接：

https://github.com/icip-cas/MetaphorVU

下载链接

链接失效反馈

官方服务：

资源简介：

MetaphorVU-Bench是第一个系统性、全面的基准数据集，专门用于隐喻视频理解。它旨在弥合隐喻视频理解领域的研究空白，通过实验发现当前多模态大语言模型在准确理解隐喻视频方面存在困难，主要由于跨域映射缺陷。该数据集支持评估模型的高阶认知能力，并为未来研究提供基础。

MetaphorVU-Bench is the first systematic and comprehensive benchmark dataset dedicated to metaphor video understanding. It aims to bridge the research gap in the field of metaphor video understanding, and reveals through empirical experiments that current multimodal large language models face difficulties in accurately comprehending metaphorical videos, which is mainly attributed to cross-domain mapping deficiencies. This dataset supports the evaluation of models' high-level cognitive abilities and provides a foundational resource for future research.

创建时间：

2026-05-12

原始信息汇总

数据集概述：MetaphorVU-Bench

MetaphorVU: Towards Metaphorical Video Understanding（ICML 2026） 是一个专注于隐喻视频理解的基准数据集与评测框架，旨在系统评估多模态大语言模型（MLLMs）在隐喻视频理解上的高阶认知能力。

核心内容

基准名称：MetaphorVU-Bench，首个系统性、全面的隐喻视频理解基准。
目的：填补隐喻视频理解研究的空白，评估MLLMs在高阶认知任务上的表现。
发现：当前MLLMs在隐喻视频理解上表现远低于人类水平，主要问题在于跨域映射（cross-domain mapping）能力不足。
方法：构建隐喻知识图谱（Metaphor Knowledge Graph）作为映射增强，提出推理时增强框架 MetaphorBoost，持续提升模型性能。

数据集与资源

数据集地址：https://huggingface.co/datasets/lzq2021/MetaphorVU-Bench
- 包含 test.jsonl（测试数据）和 videos_deface（视频文件）。
论文：https://huggingface.co/papers/2605.25461
联系邮箱：lizhuoqun2021@iscas.ac.cn

环境与依赖

Python版本：3.11.13
安装：运行 pip install -r requirements.txt

评测流程

下载数据：从Hugging Face数据集中下载 test.jsonl 和 videos_deface，分别放入 ./benchmark/datas.jsonl 和 ./benchmark/videos。
配置API：设置LLM API，并替换 utlis/use_wanqing_api.py 中的配置。
运行评测：执行 bash a_1_eval_vllm_models.sh，输出结果文件存放于 ./output（如 qa_GPT-5.jsonl）。
评分：执行 bash b_1_get_score.sh，通过LLM裁判获取评分文件，存放于 ./score（如 qa_GPT-5.jsonl）。
展示结果：执行 python c_1_show_score.py，生成所有评测MLLMs的评分CSV文件。

MetaphorBoost增强框架

下载知识图谱：从Google Drive（链接略）下载 metaphor_graph_embedding_word.pt 和 metaphor_graph.json，分别放入 ./utlis/ 目录下。
运行增强：执行 bash a_0_eval_metaphorvu_boost.sh，输出文件存放于 ./output（如 metaphorvu_boost_qa_GPT-5_mkg_keywords_simple_10_word_2.jsonl）。
评分：与标准评测流程相同。

代码与仓库

GitHub仓库：https://github.com/icip-cas/MetaphorVU
仓库包含评测脚本、增强框架实现及评分工具。

搜集汇总

数据集介绍

构建方式

在隐喻视频理解这一高阶认知任务长期缺乏系统性研究的背景下，MetaphorVU-Bench应运而生。该数据集的构建基于对多模态大语言模型在隐喻视频理解中表现出的跨域映射缺陷的深入分析。研究团队从真实世界场景中搜集了大量隐喻视频素材，经过严格的标注与筛选，形成了覆盖多种隐喻类型的测试样本。每个样本包含视频片段及其对应的隐喻含义描述，确保了基准测试的全面性与挑战性。此外，通过构建隐喻知识图谱作为映射增强，数据集还整合了语义关联信息，为评估模型的认知推理能力提供了坚实基础。

特点

MetaphorVU-Bench作为首个系统性隐喻视频理解基准，其核心特点在于对高阶认知能力的深度考察。数据集中的视频素材均来源于真实应用场景，隐喻类型丰富多样，要求模型不仅具备视觉与语言理解能力，更需掌握跨领域映射的抽象推理。实验表明，当前主流多模态大语言模型在该基准上的表现远低于人类水平，突显了数据集在设计上对高阶认知缺陷的敏捕捉能力。同时，数据集附带的知识图谱增强框架MetaphorBoost可实现一致的性能提升，进一步彰显其在促进模型认知进化方面的独特价值。

使用方法

使用MetaphorVU-Bench进行模型评估需遵循标准化的流程。首先从Hugging Face平台下载测试文件与脱敏视频数据，并配置环境依赖。研究者需准备相应的大语言模型API，通过运行评估脚本对模型在隐喻理解任务上的表现进行自动化测试。输出结果经大语言模型评分后，可生成各模型的量化得分表。对于希望提升模型性能的研究者，还可下载隐喻知识图谱，利用MetaphorBoost增强框架进行推理时优化，从而在相同评估流程中对比增强前后的表现差异。

背景与挑战

背景概述

在人工智能对复杂语义理解的不懈探索中，隐喻作为一种高阶认知的具象化表达，广泛存在于现实世界的视频内容里，用以传递抽象概念与深层意涵。然而，现有的多模态大语言模型（MLLMs）在解析此类跨域映射时往往力有不逮。为填补系统性研究的空白，来自中国科学院的研究人员于2026年提出了MetaphorVU-Bench，这是首个专为隐喻视频理解设计的综合性基准。该基准不仅系统评估了当前MLLMs在高阶认知任务上的缺陷，还揭示了其在跨域映射上的核心瓶颈。通过引入隐喻知识图谱与MetaphorBoost框架，该研究为提升模型的理解能力开辟了新路径，对推动多模态认知智能的发展具有里程碑意义。

当前挑战

MetaphorVU-Bench所聚焦的核心挑战在于，现有的MLLMs难以精准完成隐喻视频中的跨域映射，其性能远逊于人类，暴露了高阶认知能力的不足。具体而言，领域挑战包括：需要对视频中的视觉符号与抽象概念进行跨模态关联，这要求模型具备类比推理与情境解读能力，而当前模型在识别隐喻性语义和意图迁移时表现脆弱。构建过程中亦面临重重困难：如何从海量真实场景中筛选并标注出蕴含隐喻结构的视频样本，确保样本覆盖文化多样性与语义复杂性；又如何在保证视频去身份化处理的同时，维持隐喻表达的自然性与完整性。这些挑战共同构成了隐喻视频理解研究的壁垒，亟需更深层次的认知机制建模与数据工程创新。

常用场景

经典使用场景

在视觉与语言交叉领域，隐喻视频理解因涉及高层认知推理而长期处于研究空白。MetaphorVU-Bench作为首个系统性隐喻视频理解基准，为评估多模态大模型在高阶认知任务上的表现提供了标准化的测试平台。研究者可借助该基准，系统性地检验MLLMs在抽象概念映射、跨域类比推理以及隐含意义捕捉等方面的能力，从而深入剖析模型在非字面语义理解上的缺陷与瓶颈。

实际应用

在实际应用中，MetaphorVU-Bench可服务于广告创意分析、影视内容理解和教育辅助系统等场景。例如，在广告行业中，隐喻视频常被用来传递品牌理念，该基准可用来检验AI系统能否准确解读广告中的隐性信息；在教育领域，它有助于开发能够理解象征性表达的教学辅助工具，从而提升多媒体内容分析系统的语义深度与智能化水平。

衍生相关工作

基于该基准的深入分析，研究者提出了MetaphorBoost——一种以隐喻知识图谱作为映射增强的推理时优化框架，显著提升了MLLMs在隐喻视频理解中的表现。该工作启发了后续将外部结构化知识注入多模态推理的思想，推动了知识增强型视觉语言模型的发展，并催生了围绕跨域映射机制、隐喻图神经网络以及抽象概念可解释性等一系列延伸研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集