ViMU
收藏Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/LIQIIIII/ViMU
下载链接
链接失效反馈官方服务:
资源简介:
ViMU(Video Metaphorical Understanding)是一个用于评估视频隐喻理解能力的基准测试数据集。该数据集旨在推动多模态模型在理解视频中隐含、比喻性含义方面的研究。数据集包含一系列视频样本(如.mp4文件)及对应的结构化元数据注释。核心评估任务涵盖四个方面:1) 开放式解释(OE),要求模型对视频的隐喻含义进行自由文本解释;2) 证据定位(EG),要求模型识别支持其解释的具体视频证据片段;3) 修辞机制识别(RM),识别视频中使用的特定修辞手法;4) 社会价值信号识别(SV),识别视频所传达的社会价值或潜台词。数据内容涉及社会敏感主题的视频模因,因此严格限定于研究用途。数据集以英语为主,适用于视觉问答、问答和文本分类等多模态任务,为视频理解、隐喻理解和潜台词理解领域提供了一个标准化的评估基准。
ViMU (Video Metaphorical Understanding) is a benchmark dataset for evaluating video metaphorical understanding capabilities. It aims to advance research in multimodal models for understanding implicit, metaphorical meanings in videos. The dataset includes a series of video samples (e.g., .mp4 files) and corresponding structured metadata annotations. Core evaluation tasks cover four aspects: 1) Open-Ended Explanation (OE), requiring models to provide free-text explanations of the videos metaphorical meaning; 2) Evidence Grounding (EG), requiring models to identify specific video evidence segments supporting their explanations; 3) Rhetorical Mechanism Identification (RM), identifying specific rhetorical techniques used in the video; and 4) Social Value Signal Identification (SV), identifying the social values or subtext conveyed by the video. The data content involves socially sensitive video memes and is strictly limited to research purposes. The dataset is primarily in English and is suitable for multimodal tasks such as visual question answering, question answering, and text classification, providing a standardized evaluation benchmark for video understanding, metaphorical understanding, and subtext understanding domains.
创建时间:
2026-05-09
原始信息汇总
数据集概述:ViMU
ViMU 是一个用于视频隐喻理解的基准测试数据集,旨在评估多模态模型对视频中隐喻内容的理解能力。
基本信息
- 发布者:Qi Li(李琦)、Xinchao Wang(王鑫超),新加坡国立大学 xML Lab
- 许可证:MIT
- 语言:英语
- 任务类型:视觉问答、问答、文本分类
- 标签:视频理解、多模态、视频隐喻理解、基准测试、潜台词理解
数据集配置
数据集包含三个评测配置,每个配置对应一个评估集,以 JSONL 格式存储:
| 配置名称 | 简称 | 评估文件路径 |
|---|---|---|
| OI | 开放式解读 | metadata/vimu_oe.jsonl |
| EG | 证据定位 | metadata/vimu_eg.jsonl |
| RMI-SVI | 修辞机制识别 & 社会价值观信号识别 | metadata/vimu_ss.jsonl |
评估任务
该基准测试涵盖四项核心任务:
- 开放式解读(Open-ended interpretation, OE):评估模型对视频隐喻的开放解释能力。
- 证据定位(Evidence grounding, EG):评估模型从视频中定位支持其解释的证据的能力。
- 修辞机制识别(Rhetoric mechanism identification, RM):评估模型识别视频中使用的修辞手法。
- 社会价值观信号识别(Social value signal identification, SV):评估模型识别视频所传达的社会价值观信号。
数据结构
数据集目录结构如下:
videos/:包含视频文件(如vimu_000001.mp4)。metadata/:包含任务元数据 JSONL 文件、视频证据文件及缓存。scripts/:包含用于运行模型和评分的 Python 脚本。output/:输出评测摘要文件的目录。
评分规则
- 开放式解读:使用“LLM 作为裁判”协议,根据核心意图、隐含信号、目标/社会意义、幻觉惩罚、字面理解惩罚等维度进行打分。
- 其他任务(证据定位、修辞识别、社会价值观识别):采用多标签预测评分规则。若预测中包含任何错误选项,得分为 0;若预测为正确答案的子集,得分为(正确选中的选项数 / 总正确答案数)。
使用与运行
用户需配置相应 API 密钥(如 OpenAI、OpenRouter、Google)来运行模型。推荐按顺序执行脚本进行完整评估:
- 运行开放式解读脚本。
- 运行证据定位脚本。
- 运行结构化的潜台词任务脚本(分为“无指导”和“有指导”两种模式)。
注意事项
- 该数据集包含具有社会敏感性的视频迷因,仅限研究使用。
- 如需引用,请参考提供的 BibTeX 条目。
搜集汇总
数据集介绍

构建方式
ViMU数据集由新加坡国立大学xML实验室构建,旨在评估多模态模型对视频隐喻的深层语义理解能力。其构建过程基于对社交媒体中广泛传播的、蕴含社会文化隐喻的视频素材的系统性采集与标注,涵盖开放解释、证据定位、修辞机制识别及社会价值信号检测四类核心任务。数据以jsonl格式存储,并细分为三个配置(OI、EG、RMI-SVI),分别对应不同的评价维度。所有视频及元数据统一组织,为多模态模型的推理性能提供标准化的测试框架。
特点
ViMU数据集具有鲜明的评价导向与任务多样性特征。它不仅考察模型对视频表面内容的描述能力,更深入评估其解读隐喻性表达、定位支撑性的视听证据、辨析修辞构造以及识别潜藏的社会价值逻辑的能力。尤为突出的是,该数据集引入了LLM-as-a-judge评分协议对开放回答进行评判,并采用多标签打分规则处理结构化选择题,从而在语义精准度与符号安全性之间取得平衡,形成了一个兼具挑战性与严谨性的评估基准。
使用方法
使用ViMU数据集时,研究者需首先下载视频与元数据文件,并配置相应的项目根路径。随后依据推荐的脚本运行顺序执行推理,包括开放解释、证据定位以及结构化子文本任务,后者可选无引导或有引导两种提示模式。模型由脚本内部的MODEL_SPECS列表进行开关控制,并通过API密钥调用外部服务。最终,运行评分脚本可自动生成聚合的评估摘要文件,从而完成对模型隐喻理解能力的全面评测。
背景与挑战
背景概述
ViMU数据集由新加坡国立大学xML实验室的Qi Li与Xinchao Wang于2026年创建,专注于视频隐喻理解这一前沿多模态研究课题。隐喻作为人类高级认知与语言表达的核心机制,在视频媒介中往往通过视觉修辞、社会信号及潜在意图的融合来传达复杂信息。该数据集旨在系统性地评估多模态模型对视频中隐喻性内容的解析能力,涵盖开放式解读、证据定位、修辞机制识别及社会价值信号判断四个维度,填补了现有视频理解基准在深层语义与隐含意义挖掘方面的空白。ViMU的发布为探索多模态大模型在高阶认知任务上的表现提供了标准化评测平台,对推动视频理解从浅层感知向深层语义推理的跃迁具有重要学术价值。
当前挑战
ViMU所面对的挑战根植于视频隐喻理解的复杂性。首先,隐喻性内容常以隐蔽且多义的方式呈现,要求模型不仅能识别表层视觉元素,还需捕捉文化背景下的潜在社会信号,这对现有视觉问答模型提出了超越事实性回答的语义推理需求。其次,标注过程本身极具难度,隐喻的主观性和语境依赖性导致构建可靠的多标签证据集与修辞标签面临一致性困境,需设计精细的评分规则(如LLM-as-a-judge协议)以避免字面理解偏差。此外,数据集中包含社会敏感内容,要求研究者在开放性与伦理合规之间取得平衡,进一步加剧了数据集构建与模型评估的挑战。
常用场景
经典使用场景
ViMU数据集专为视频隐喻理解而构建,其经典使用场景集中于评估多模态模型在四个核心任务上的表现:开放式解读、证据定位、修辞机制识别以及社会价值信号识别。研究者通过该基准测试,能够系统性地检验模型是否具备捕捉视频中隐含的隐喻含义、解释其象征性表达并理解深层社会文化讯息的能力。这些任务从不同维度刻画了视频隐喻理解的复杂性,为多模态理解研究提供了标准化的评估框架。
实际应用
在实际应用中,ViMU数据集所推动的视频隐喻理解技术可广泛赋能社交媒体内容分析、广告效果评估、跨文化传播研究和有害内容审核等领域。例如,用于自动识别网络迷因中的潜在攻击性或歧视性隐喻,辅助平台进行更精准的社区治理;或帮助广告系统理解创意视频中的内隐情感诉求,提升用户触达的语义关联度。此外,该技术还可服务于教育场景,辅助学习者解析影视作品中的艺术表达,拓展计算媒体理解的应用边界。
衍生相关工作
ViMU数据集的发布催生了一系列相关研究工作,包括基于该基准改进的多模态隐喻理解模型、结合思维链提示的策略框架以及面向视频的细粒度语义对齐方法。已有学者利用该数据集对比主流多模态大语言模型在隐喻理解上的性能差异,并探索引入外部常识知识库以增强模型的社会价值敏感性。此外,ViMU启发了针对视频子文本理解的新任务定义,促进了从单一视觉语言理解向更具人文深度的多模态隐喻推理研究方向的转变。
以上内容由遇见数据集搜集并总结生成



