MultiMM

Name: MultiMM
Creator: 大连理工大学, 中国; RMIT大学, 澳大利亚; 阿德莱德大学, 澳大利亚
Published: 2025-06-08 12:02:50
License: 暂无描述

arXiv2025-06-08 更新2025-06-11 收录

下载链接：

https://github.com/DUTIR-YSQ/MultiMM

下载链接

链接失效反馈

官方服务：

资源简介：

MultiMM是一个跨文化多模态隐喻数据集，旨在研究中国和英语中的隐喻。该数据集包含8,461个文本-图像广告对，每个广告对都有精细的注释，提供了对单一文化领域之外的多模态隐喻的深入理解。数据集的创建涉及从商业和公共服务广告中收集文本和视觉元素，并对收集到的数据进行清洗和标注。MultiMM数据集的设计旨在解决自动隐喻处理中的文化偏差问题，并为跨文化多模态隐喻理解提供基准。

MultiMM is a cross-cultural multimodal metaphor dataset designed for studying metaphors in both Chinese and English. This dataset contains 8,461 text-image advertisement pairs, each equipped with fine-grained annotations to deliver in-depth insights into multimodal metaphors beyond single cultural domains. The development of the MultiMM dataset entails collecting textual and visual elements from commercial and public service advertisements, followed by data cleaning and annotation work. The MultiMM dataset is constructed to address cultural bias issues in automatic metaphor processing and serve as a benchmark for cross-cultural multimodal metaphor understanding.

提供机构：

大连理工大学, 中国; RMIT大学, 澳大利亚; 阿德莱德大学, 澳大利亚

创建时间：

2025-06-08

原始信息汇总

数据集概述

基本信息

数据集名称: Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors
发布会议: ACL 2025
作者: Senqi Yang, Dongyu Zhang, Jing Ren, Ziqi Xu, Xiuzhen Zhang, Yiliao Song, Hongfei Lin, Feng Xia
数据集地址: https://github.com/DUTIR-YSQ/MultiMM

数据集描述

目的: 用于跨文化多模态隐喻识别和分析，涵盖中文和英文样本。
语言: 中文（CN）和英文（EN）
数据总量: 8,461条（中文4,397条，英文4,064条）
- 隐喻样本: 4,772条（中文2,583条，英文2,189条）
- 字面样本: 3,689条（中文1,814条，英文1,875条）
文本统计:
- 总词数: 213,501（中文145,312，英文68,189）
- 平均词数: 24（中文33，英文15）
数据集划分:
- 训练集: 6,768条（中文3,517条，英文3,251条）
- 验证集: 846条（中文440条，英文406条）
- 测试集: 847条（中文440条，英文407条）

数据样本字段

图像
文本
隐喻标签: 1表示隐喻，0表示字面
目标域
源域
情感类型: 1=正面，0=中性，-1=负面

文件结构

code_metaphor/: 包含隐喻检测任务的代码，运行main.py。
data/: 包含训练、验证和测试数据。
- imgs_CN/和imgs_EN/: 图像数据。
- all/: 原始未分割数据。

引用格式

bibtex @inproceedings{yang2025cultural, title = {Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors}, author = {Yang, Senqi and Zhang, Dongyu and Ren, Jing and Xu, Ziqi and Zhang, Xiuzhen and Song, Yiliao and Lin, Hongfei and Xia, Feng}, booktitle = {Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, pages = {XX--XX}, year = {2025}, address = {Vienna, Austria}, publisher = {Association for Computational Linguistics} }

搜集汇总

数据集介绍

构建方式

MultiMM数据集的构建采用了跨文化视角，通过收集来自东西方文化的文本-图像广告对，共计8,461个样本，其中4,397个来自东方文化，4,064个来自西方文化。数据收集过程中，中文广告通过百度搜索关键词获取，英文广告则来自公开数据集。为确保数据质量，研究者进行了去重、手动筛选模糊或非广告图像，并利用OCR技术提取文本信息。每个样本均经过精细标注，包括隐喻出现与否、目标与源领域关系以及情感类别（负面、中性、正面）。标注过程由多文化背景的研究团队完成，并通过Fleiss’ Kappa评分验证了标注的一致性。

特点

MultiMM数据集的特点在于其跨文化性和多模态性。它不仅覆盖了中文和英文两种语言，还通过文本和图像的结合，提供了丰富的隐喻表达形式。数据集中隐喻的分布反映了文化差异，例如英文广告更倾向于使用具体的、普遍认可的源词汇，而中文广告则更多采用传统象征和社会价值观相关的词汇。此外，数据集还标注了情感类别，为研究隐喻与情感之间的关系提供了可能。MultiMM的多样性和精细标注使其成为研究跨文化多模态隐喻理解的宝贵资源。

使用方法

MultiMM数据集的使用方法主要包括隐喻检测和情感分析两个任务。研究者可以利用该数据集训练和评估模型在跨文化语境下的隐喻理解能力。数据集已划分为训练集、验证集和测试集，便于模型的开发和测试。此外，提出的Sentiment-Enriched Metaphor Detection (SEMD)模型展示了如何整合情感嵌入来增强跨文化隐喻理解。使用MultiMM时，研究者应注意文化差异对隐喻表达和情感识别的影响，并考虑采用多模态方法以提高模型性能。

背景与挑战

背景概述

MultiMM数据集由大连理工大学、皇家墨尔本理工大学和阿德莱德大学的研究团队于2025年创建，旨在解决自然语言处理领域中文化偏见对隐喻理解的影响。该数据集包含8,461个中英文图文广告对，涵盖东西方文化背景，并提供了细粒度的隐喻标注和情感分类。作为首个专为跨文化多模态隐喻研究设计的基准数据集，MultiMM填补了现有隐喻资源中非西方文化样本的空白，为认知语言学、计算广告学和跨文化传播研究提供了重要实证基础。该数据集通过整合视觉与文本模态的隐喻表达，推动了多模态隐喻计算模型的发展，并对构建公平包容的语言模型具有启示意义。

当前挑战

MultiMM数据集面临的核心挑战体现在两个维度：在领域问题层面，多模态隐喻识别需要解决跨文化语境下源域与目标域映射的差异性，例如中英文广告中动物隐喻的情感极性可能完全相反（如'dinosaur'在英文中喻指'过时'而在中文中表示'丑陋'）；在构建过程中，数据收集需克服文化特定性符号的标注难题（如中文'福'字与西方吉祥物的不对等性），且标注者文化背景的多样性要求建立复杂的质量控制机制，最终通过Fleiss' Kappa系数（κ=0.66-0.82）确保标注一致性。此外，图文模态的非对称表达（如中文广告更依赖隐晦的视觉符号）增加了多模态对齐的建模难度。

常用场景

经典使用场景

MultiMM数据集在跨文化隐喻理解研究中具有重要价值，尤其在广告领域的多模态隐喻识别任务中表现突出。该数据集通过整合中英文广告中的文本-图像对，为研究者提供了丰富的跨文化隐喻样本。在隐喻检测任务中，研究者可以利用MultiMM分析不同文化背景下隐喻表达的共性与差异，例如比较中英文广告中动物象征意义的异同。数据集精细的标注体系支持从隐喻发生、目标域-源域关系到情感类别的多层次分析，为探索文化因素如何影响隐喻表达提供了系统化工具。

衍生相关工作

MultiMM推动了多模态隐喻理解模型的创新发展。基于该数据集，研究者提出了融合视觉Transformer与BERT的跨模态图卷积网络（CMGCN），在隐喻检测任务中达到74.91%的中文F1值。数据集还启发了Caption Enriched Samples等创新方法，通过图像描述增强全局特征建模。在情感分析方向，衍生工作探索了链式思维提示（Chain-of-Cognition Prompting）等新技术，显著提升了中文隐喻情感的识别准确率。这些工作共同推进了文化敏感的NLP模型研究。

数据集最近研究