ViMU

github2026-05-15 更新2026-05-16 收录

下载链接：

https://github.com/LiQiiiii/Video-Metaphorical-Understanding

下载链接

链接失效反馈

官方服务：

资源简介：

ViMU是一个用于视频隐喻理解的基准数据集，包含四个任务：开放式解释、证据基础、修辞机制识别和社会价值信号识别，用于评估多模态模型。

ViMU is a benchmark dataset for video metaphor understanding, which comprises four tasks: open-ended explanation, evidence grounding, rhetorical mechanism recognition, and social value signal recognition, intended for evaluating multimodal models.

创建时间：

2026-05-09

原始信息汇总

ViMU 视频隐喻理解基准数据集

数据集简介

ViMU 是一个用于评估多模态模型在视频隐喻理解能力的基准数据集，由新加坡国立大学 xML 实验室的 Qi Li 和 Xinchao Wang 提出。

任务类型

该基准包含四个核心评估任务：

开放式解释 (Open-ended Interpretation, OE)：对视频隐喻进行开放式解读
证据定位 (Evidence Grounding, EG)：定位支持隐喻理解的视频证据
修辞机制识别 (Rhetoric Mechanism Identification, RM)：识别视频中使用的修辞手法
社会价值信号识别 (Social Value Signal Identification, SV)：识别视频传达的社会价值信号

数据集内容

视频文件：videos/ 目录下包含 vimu_000001.mp4 等视频
元数据文件：
- metadata/vimu_oe.jsonl（开放式解释任务数据）
- metadata/vimu_eg.jsonl（证据定位任务数据）
- metadata/vimu_ss.jsonl（结构化子文本任务数据，包含修辞和社会价值）
- metadata/video_evidence.jsonl（视频证据标注）
- metadata/cache/（缓存文件）

评估脚本

项目提供完整的评估脚本，位于 scripts/ 目录：

开放式解释：00-vimu_oe.py、01-vimu_oe_judge.py、02-vimu_oe_score.py
证据定位：10-vimu_eg.py、11-vimu_eg_score.py
结构化子文本任务（含引导与无引导两种模式）：20-vimu_ss.py、21-vimu_ss_score.py

评分规则

开放式解释：使用 LLM 作为裁判进行评分，考量核心意图、隐含信号、目标或社会含义，并对幻觉和仅字面理解进行扣分
证据定位、修辞识别、社会价值识别：作为多标签预测问题评分，若包含任一错误选项则得分为0；若预测为正确答案的子集，得分为：正确选择的选项数 / 总正确答案数

输出结果

评估完成后生成汇总结果文件：

output/vimu_oe_summary.json
output/vimu_eg_summary.json
output/vimu_ss_without_guidance_summary.json
output/vimu_ss_with_guidance_summary.json

使用说明

需要安装依赖：pip install openai requests numpy pandas tqdm
根据使用的模型配置相应 API 密钥（OpenAI、OpenRouter、Google）
在脚本中设置 PROJECT_ROOT 为本地数据集路径
通过编辑脚本中的 MODEL_SPECS 配置启用的模型

注意事项

数据集包含涉及社会敏感话题的视频迷因，仅限研究用途

引用信息

bibtex @article{li2026vimu, title={ViMU: Benchmarking Video Metaphorical Understanding}, author={Li, Qi and Wang, Xinchao}, journal={arXiv preprint arXiv:2605.14607}, year={2026} }

相关链接

项目主页：https://liqiiiii.github.io/Video-Metaphorical-Understanding/
论文：https://arxiv.org/abs/2605.14607
Hugging Face 数据集：https://huggingface.co/datasets/LIQIIIII/ViMU

搜集汇总

数据集介绍

构建方式

视频隐喻理解是推动多模态人工智能迈向深层认知的关键一环，然而现有视觉-语言基准多聚焦于表面语义，对蕴含在社会文化语境中的隐喻性表达关注不足。为此，ViMU数据集应运而生，它精心搜集并筛选了大量来自网络社交平台的视频模因，每段视频均经过专业标注，围绕开放式解读、证据定位、修辞机制识别及社会价值信号判别四个维度构建多层次标签体系，形成了结构化的元数据文件与标准化评价脚本。

特点

ViMU数据集具备鲜明的多维评估特征，其开创性地将视频隐喻理解拆解为核心意图捕捉、隐含信号挖掘、目标或社会意义推断及幻觉与字面回答惩罚等细粒度评分规则，并采用多标签预测范式对证据定位与修辞识别任务进行严格计分。此外，数据集内置引导与非引导两种测试模式，能够全面评估模型在有无提示下的隐喻解析能力。

使用方法

使用ViMU数据集进行模型评测时，研究者需首先配置视频路径与相应API密钥，随后依照推荐的脚本执行顺序逐步运行推理与评分程序。具体而言，可依次执行开放式解读、证据定位及结构化子任务评估脚本，并通过修改MODEL_SPECS列表灵活启用或禁用待测模型。最终，系统将自动生成聚合评价结果文件，以便研究者对比分析各模型在视频隐喻理解上的表现差异。

背景与挑战

背景概述

隐喻作为一种深层的认知机制，在人类交流中扮演着以具象化抽象概念、传递复杂情感与社会价值观的核心角色。然而，现有视觉语言理解研究多聚焦于字面意义的解析，对视频中隐喻性内容的系统性评估尚付阙如。为填补这一空白，新加坡国立大学xML Lab的Qi Li与Xinchao Wang于2026年提出ViMU（Video Metaphorical Understanding）基准数据集。该研究工作围绕四个核心任务展开：开放式隐喻解读、证据定位、修辞机制识别以及社会价值信号识别，旨在全面衡量多模态模型对视频隐喻的理解程度。ViMU的推出为AI从浅层感知向深层语义推理的跨越提供了关键测评平台，对推动多模态智能在社交媒体分析、文化理解等领域的应用具有深远意义。

当前挑战

ViMU所解决的领域问题在于，当前多模态模型普遍缺乏对视频中隐喻性内容的深层语义推理能力，难以像人类一样从具象视觉符号中提炼抽象概念与社会价值。具体挑战包括：1）开放式隐喻解读面临主观性强、正确答案多元化的评估难题，需依赖大语言模型作为裁判进行语义相似性判定；2）证据定位与修辞、社会价值识别均为多标签分类问题，现有模型在细粒度标签间的边界把握上存在显著不足；3）构建过程中，视频隐喻样本的收集与标注需兼顾文化背景差异与社会敏感性，确保数据集既具代表性又避免偏见；4）模型需同时处理时间维度上的视觉线索与隐含修辞结构，对跨模态对齐能力提出极高要求。

常用场景

经典使用场景

在视频隐喻理解这一新兴但极具挑战性的研究领域，ViMU数据集被设计为多模态大模型在细粒度隐喻解析能力上的评估基准。其经典使用场景涵盖四个核心任务：开放式的隐喻释义生成、视频中支撑隐喻的视觉证据定位、修辞机制的识别以及社会价值信号的判别。研究者通常利用这一基准，系统性地检验模型能否超越表面语义，捕捉视频中隐含的意图、比喻性表达与文化暗示，从而全面衡量模型对复杂视听隐喻的深度理解水平。

衍生相关工作

ViMU数据集的发布催生了一系列旨在提升视频隐喻理解能力的经典工作。一方面，研究者基于其任务框架开发了专用的视觉-语言对齐策略，例如结合时空注意力机制的跨模态证据检索模型，以强化对修辞信号与视觉场景的关联推理。另一方面，该数据集也被用作微调多模态大语言模型（如Video-LLaMA系列）的高质量训练信号，催生了能够生成富含隐喻推理答案的专用模型变体。此外，其开放式释义的评判协议，也启发了LLM作为评估者对多模态非字面内容进行打分的新方法论探索。

数据集最近研究