five

Chinese Multimodal Metaphor Mapping Dataset (CM3D)|隐喻理解数据集|多模态数据处理数据集

收藏
arXiv2025-01-05 更新2025-01-08 收录
隐喻理解
多模态数据处理
下载链接:
http://arxiv.org/abs/2501.02434v1
下载链接
链接失效反馈
资源简介:
CM3D数据集是由大连理工大学等机构开发的中文多模态隐喻映射数据集,包含6108个文本-图像对,主要来源于中文广告。该数据集通过标注目标域和源域的隐喻表达,旨在促进非英语语言中的隐喻理解研究。数据集的内容涵盖了广告中的隐喻映射,提供了详细的注释,帮助研究人员深入理解隐喻的认知机制。数据集的创建过程包括从广告中提取隐喻表达,并进行人工标注。该数据集的应用领域主要集中在自然语言处理中的隐喻理解,特别是多模态隐喻的识别与解释,旨在解决隐喻映射识别中的复杂问题。
提供机构:
大连理工大学, 澳门大学, 关西大学, 新南威尔士大学, 皇家墨尔本理工大学
创建时间:
2025-01-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
CM3D数据集的构建过程分为三个阶段:数据收集、数据标注和质量控制。首先,从包含13,820个文本-图像对的广告数据集中筛选出6,108个隐喻性文本-图像对。随后,通过专家驱动的标注方法,识别每个隐喻对中的目标域和源域,并确保标注的一致性和准确性。标注团队由五名计算语言学研究生组成,采用多轮讨论和共识机制来保证标注质量。最后,通过严格的标注标准和训练流程,确保数据集的可靠性和一致性。
特点
CM3D数据集包含6,108个中文广告中的文本-图像对,涵盖了丰富的隐喻表达。每个样本都标注了目标域和源域,提供了详细的隐喻映射信息。数据集特别关注中文语境下的多模态隐喻,弥补了非英语隐喻资源的不足。此外,数据集的广告来源多样,既包括商业广告,也包含公益广告,涵盖了广泛的主题和情感表达。通过UMAP降维可视化,目标域和源域的分布呈现出明显的差异,反映了广告中隐喻的多样性和复杂性。
使用方法
CM3D数据集可用于多模态隐喻映射识别任务,特别是目标域和源域的提取。研究人员可以利用该数据集训练和评估隐喻理解模型,如基于Chain-of-Thought(CoT)提示的隐喻映射识别模型(CPMMIM)。该模型通过模拟人类认知过程,分阶段识别目标域和源域,并结合双层次优化(BLO)框架提升识别精度。数据集还可作为基准测试集,用于评估不同模型在隐喻映射任务中的表现,推动多模态隐喻理解的研究进展。
背景与挑战
背景概述
Chinese Multimodal Metaphor Mapping Dataset (CM3D) 是由大连理工大学、澳门大学、关西大学、新南威尔士大学和皇家墨尔本理工大学的研究团队于2025年共同创建的一个多模态隐喻理解数据集。该数据集旨在解决自然语言处理(NLP)领域中隐喻理解的复杂性问题,特别是针对非英语语言的多模态隐喻资源匮乏的问题。CM3D数据集包含了6108个中文广告中的文本-图像对,并标注了隐喻的目标域和源域。通过引入Chain-of-Thought (CoT) Prompting-based Metaphor Mapping Identification Model (CPMMIM),该数据集为隐喻映射识别提供了新的研究方法,推动了隐喻理解在NLP领域的发展。
当前挑战
CM3D数据集面临的挑战主要包括两个方面:首先,隐喻理解本身具有认知复杂性,尤其是在多模态环境下,如何准确识别目标域和源域之间的映射关系是一个核心难题。现有的NLP研究多集中于隐喻检测和情感分析,而对隐喻映射的深入理解仍显不足。其次,构建过程中,如何确保多模态数据的标注一致性也是一个重要挑战。由于隐喻的理解往往依赖于文化背景和上下文信息,标注过程中需要专家团队的深度参与,以确保标注的准确性和一致性。此外,跨语言和跨文化的隐喻理解问题也增加了数据集的构建难度,特别是在非英语语境下,隐喻的表达方式和理解方式可能与英语存在显著差异。
常用场景
经典使用场景
CM3D数据集在自然语言处理(NLP)领域中被广泛用于多模态隐喻理解的研究。该数据集通过提供中文广告中的文本-图像对及其隐喻映射的详细标注,支持研究者探索隐喻的源域和目标域之间的复杂关系。经典的使用场景包括隐喻映射识别、隐喻检测以及隐喻情感分析等任务。通过结合文本和图像的多模态信息,CM3D为研究者提供了一个独特的视角,帮助他们深入理解隐喻在跨模态表达中的认知机制。
衍生相关工作
CM3D数据集的发布催生了一系列相关研究工作,特别是在多模态隐喻理解和隐喻映射识别领域。基于该数据集,研究者提出了多种创新模型,如基于链式思维提示的隐喻映射识别模型(CPMMIM),该模型通过模拟人类的认知过程,显著提升了隐喻映射的识别效果。此外,CM3D还激发了跨语言隐喻研究的发展,推动了非英语语境下隐喻资源的构建与分析。这些衍生工作不仅丰富了隐喻研究的理论框架,还为实际应用提供了有力的技术支持。
数据集最近研究
最新研究方向
近年来,随着多模态数据在自然语言处理(NLP)领域的广泛应用,隐喻理解的研究逐渐从单一文本模态扩展到多模态场景。Chinese Multimodal Metaphor Mapping Dataset (CM3D) 的提出填补了非英语多模态隐喻资源的空白,特别是在广告领域中的隐喻映射识别。该数据集不仅提供了中文广告中的文本-图像对,还标注了隐喻的目标域和源域,为研究者提供了丰富的多模态隐喻分析基础。前沿研究方向主要集中在如何通过多模态数据(如文本、图像、声音等)更准确地识别隐喻映射,尤其是结合大语言模型(LLMs)和链式思维(Chain-of-Thought, CoT)推理技术,模拟人类认知过程进行隐喻理解。此外,双层次优化(Bi-Level Optimization, BLO)框架的引入进一步提升了隐喻映射识别的准确性和可解释性。这些研究不仅推动了隐喻理解在多模态场景中的发展,还为跨语言、跨文化的隐喻研究提供了新的视角和工具。
相关研究论文
  • 1
    Towards Multimodal Metaphor Understanding: A Chinese Dataset and Model for Metaphor Mapping Identification大连理工大学, 澳门大学, 关西大学, 新南威尔士大学, 皇家墨尔本理工大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

BraTS

BraTS(Brain Tumor Segmentation)数据集是一个专门用于脑肿瘤分割研究的数据集。它包含了多模态的MRI图像,包括T1、T1c(对比增强T1)、T2和FLAIR序列,以及相应的肿瘤分割标签。数据集主要用于评估和比较不同脑肿瘤分割算法的效果。

www.med.upenn.edu 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录