five

ViMU

收藏
github2026-05-15 更新2026-05-16 收录
下载链接:
https://github.com/LiQiiiii/Video-Metaphorical-Understanding
下载链接
链接失效反馈
官方服务:
资源简介:
ViMU是一个用于视频隐喻理解的基准数据集,包含四个任务:开放式解释、证据基础、修辞机制识别和社会价值信号识别,用于评估多模态模型。

ViMU is a benchmark dataset for video metaphor understanding, which comprises four tasks: open-ended explanation, evidence grounding, rhetorical mechanism recognition, and social value signal recognition, intended for evaluating multimodal models.
创建时间:
2026-05-09
原始信息汇总

ViMU 视频隐喻理解基准数据集

数据集简介

ViMU 是一个用于评估多模态模型在视频隐喻理解能力的基准数据集,由新加坡国立大学 xML 实验室的 Qi Li 和 Xinchao Wang 提出。

任务类型

该基准包含四个核心评估任务:

  1. 开放式解释 (Open-ended Interpretation, OE):对视频隐喻进行开放式解读
  2. 证据定位 (Evidence Grounding, EG):定位支持隐喻理解的视频证据
  3. 修辞机制识别 (Rhetoric Mechanism Identification, RM):识别视频中使用的修辞手法
  4. 社会价值信号识别 (Social Value Signal Identification, SV):识别视频传达的社会价值信号

数据集内容

  • 视频文件:videos/ 目录下包含 vimu_000001.mp4 等视频
  • 元数据文件:
    • metadata/vimu_oe.jsonl(开放式解释任务数据)
    • metadata/vimu_eg.jsonl(证据定位任务数据)
    • metadata/vimu_ss.jsonl(结构化子文本任务数据,包含修辞和社会价值)
    • metadata/video_evidence.jsonl(视频证据标注)
    • metadata/cache/(缓存文件)

评估脚本

项目提供完整的评估脚本,位于 scripts/ 目录:

  • 开放式解释:00-vimu_oe.py01-vimu_oe_judge.py02-vimu_oe_score.py
  • 证据定位:10-vimu_eg.py11-vimu_eg_score.py
  • 结构化子文本任务(含引导与无引导两种模式):20-vimu_ss.py21-vimu_ss_score.py

评分规则

  • 开放式解释:使用 LLM 作为裁判进行评分,考量核心意图、隐含信号、目标或社会含义,并对幻觉和仅字面理解进行扣分
  • 证据定位、修辞识别、社会价值识别:作为多标签预测问题评分,若包含任一错误选项则得分为0;若预测为正确答案的子集,得分为:正确选择的选项数 / 总正确答案数

输出结果

评估完成后生成汇总结果文件:

  • output/vimu_oe_summary.json
  • output/vimu_eg_summary.json
  • output/vimu_ss_without_guidance_summary.json
  • output/vimu_ss_with_guidance_summary.json

使用说明

  • 需要安装依赖:pip install openai requests numpy pandas tqdm
  • 根据使用的模型配置相应 API 密钥(OpenAI、OpenRouter、Google)
  • 在脚本中设置 PROJECT_ROOT 为本地数据集路径
  • 通过编辑脚本中的 MODEL_SPECS 配置启用的模型

注意事项

  • 数据集包含涉及社会敏感话题的视频迷因,仅限研究用途

引用信息

bibtex @article{li2026vimu, title={ViMU: Benchmarking Video Metaphorical Understanding}, author={Li, Qi and Wang, Xinchao}, journal={arXiv preprint arXiv:2605.14607}, year={2026} }

相关链接

  • 项目主页:https://liqiiiii.github.io/Video-Metaphorical-Understanding/
  • 论文:https://arxiv.org/abs/2605.14607
  • Hugging Face 数据集:https://huggingface.co/datasets/LIQIIIII/ViMU
搜集汇总
数据集介绍
main_image_url
构建方式
视频隐喻理解是推动多模态人工智能迈向深层认知的关键一环,然而现有视觉-语言基准多聚焦于表面语义,对蕴含在社会文化语境中的隐喻性表达关注不足。为此,ViMU数据集应运而生,它精心搜集并筛选了大量来自网络社交平台的视频模因,每段视频均经过专业标注,围绕开放式解读、证据定位、修辞机制识别及社会价值信号判别四个维度构建多层次标签体系,形成了结构化的元数据文件与标准化评价脚本。
特点
ViMU数据集具备鲜明的多维评估特征,其开创性地将视频隐喻理解拆解为核心意图捕捉、隐含信号挖掘、目标或社会意义推断及幻觉与字面回答惩罚等细粒度评分规则,并采用多标签预测范式对证据定位与修辞识别任务进行严格计分。此外,数据集内置引导与非引导两种测试模式,能够全面评估模型在有无提示下的隐喻解析能力。
使用方法
使用ViMU数据集进行模型评测时,研究者需首先配置视频路径与相应API密钥,随后依照推荐的脚本执行顺序逐步运行推理与评分程序。具体而言,可依次执行开放式解读、证据定位及结构化子任务评估脚本,并通过修改MODEL_SPECS列表灵活启用或禁用待测模型。最终,系统将自动生成聚合评价结果文件,以便研究者对比分析各模型在视频隐喻理解上的表现差异。
背景与挑战
背景概述
隐喻作为一种深层的认知机制,在人类交流中扮演着以具象化抽象概念、传递复杂情感与社会价值观的核心角色。然而,现有视觉语言理解研究多聚焦于字面意义的解析,对视频中隐喻性内容的系统性评估尚付阙如。为填补这一空白,新加坡国立大学xML Lab的Qi Li与Xinchao Wang于2026年提出ViMU(Video Metaphorical Understanding)基准数据集。该研究工作围绕四个核心任务展开:开放式隐喻解读、证据定位、修辞机制识别以及社会价值信号识别,旨在全面衡量多模态模型对视频隐喻的理解程度。ViMU的推出为AI从浅层感知向深层语义推理的跨越提供了关键测评平台,对推动多模态智能在社交媒体分析、文化理解等领域的应用具有深远意义。
当前挑战
ViMU所解决的领域问题在于,当前多模态模型普遍缺乏对视频中隐喻性内容的深层语义推理能力,难以像人类一样从具象视觉符号中提炼抽象概念与社会价值。具体挑战包括:1)开放式隐喻解读面临主观性强、正确答案多元化的评估难题,需依赖大语言模型作为裁判进行语义相似性判定;2)证据定位与修辞、社会价值识别均为多标签分类问题,现有模型在细粒度标签间的边界把握上存在显著不足;3)构建过程中,视频隐喻样本的收集与标注需兼顾文化背景差异与社会敏感性,确保数据集既具代表性又避免偏见;4)模型需同时处理时间维度上的视觉线索与隐含修辞结构,对跨模态对齐能力提出极高要求。
常用场景
经典使用场景
在视频隐喻理解这一新兴但极具挑战性的研究领域,ViMU数据集被设计为多模态大模型在细粒度隐喻解析能力上的评估基准。其经典使用场景涵盖四个核心任务:开放式的隐喻释义生成、视频中支撑隐喻的视觉证据定位、修辞机制的识别以及社会价值信号的判别。研究者通常利用这一基准,系统性地检验模型能否超越表面语义,捕捉视频中隐含的意图、比喻性表达与文化暗示,从而全面衡量模型对复杂视听隐喻的深度理解水平。
衍生相关工作
ViMU数据集的发布催生了一系列旨在提升视频隐喻理解能力的经典工作。一方面,研究者基于其任务框架开发了专用的视觉-语言对齐策略,例如结合时空注意力机制的跨模态证据检索模型,以强化对修辞信号与视觉场景的关联推理。另一方面,该数据集也被用作微调多模态大语言模型(如Video-LLaMA系列)的高质量训练信号,催生了能够生成富含隐喻推理答案的专用模型变体。此外,其开放式释义的评判协议,也启发了LLM作为评估者对多模态非字面内容进行打分的新方法论探索。
数据集最近研究
最新研究方向
在当前多模态大模型蓬勃发展的浪潮中,隐喻理解作为高级认知与语言能力的核心,正从静态图像迈向动态视频领域。ViMU数据集的提出,恰逢其时地填补了视频隐喻理解基准测试的空白。该研究聚焦于四大前沿任务:开放式隐喻解读、证据定位、修辞机制识别及社会价值信号判别,旨在系统评估模型对视频中深层非字面意义的捕捉能力。通过构建涵盖丰富社会文化背景的视频语料,ViMU不仅检验了模型从连续视觉流中提取隐含语义的潜力,更将隐喻理解与价值观对齐相联结,呼应了大模型安全与可信可控的热点方向。这一工作有力推动了多模态智能从感知层向认知层的跃升,为理解模型在复杂社会语境下的推理能力提供了关键评测框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作