AdMIRe 数据集

Name: AdMIRe 数据集
Creator: 谢菲尔德大学, 英国
Published: 2025-03-19 23:58:46
License: 暂无描述

arXiv2025-03-19 更新2025-03-21 收录

下载链接：

http://arxiv.org/abs/2503.15358v1

下载链接

链接失效反馈

官方服务：

资源简介：

AdMIRe数据集是由谢菲尔德大学等机构创建，旨在推进多模态idiomaticity表示的研究。该数据集包含英语和巴西葡萄牙语两种语言，专注于名词化合物，这些化合物具有字面和 idiomatic 两种可能的含义。数据集通过静态图像和图像序列两种模态来表示这些表达，旨在解决自然语言处理中理解和处理习语表达的挑战。

The AdMIRe Dataset was created by institutions including the University of Sheffield, with the aim of advancing research on multimodal idiomaticity representation. This dataset covers two languages, English and Brazilian Portuguese, and focuses on noun compounds that have both literal and idiomatic interpretations. It represents these expressions via two modalities: static images and image sequences, and is designed to address the challenges of understanding and processing idiomatic expressions in natural language processing.

提供机构：

谢菲尔德大学, 英国

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

AdMIRe数据集的构建过程主要围绕多模态习语表达的理解展开。首先，研究者从现有的习语数据集中筛选出具有双重含义的名词复合词，确保这些表达在字面和比喻意义上均可解释。随后，母语者根据这些表达的字面和比喻意义，生成了描述视觉场景的短句，并通过商业文本到图像生成模型（如Midjourney）生成对应的图像。此外，数据集还包含了图像序列任务，要求生成描述习语表达的时间序列图像。所有生成的图像均配有描述性文本，以支持仅使用文本模型的团队参与任务。

特点

AdMIRe数据集的特点在于其多模态性和跨语言性。数据集不仅包含静态图像，还引入了时间序列图像，以捕捉习语表达中的动态语义。此外，数据集涵盖了英语和巴西葡萄牙语两种语言，提供了丰富的跨语言习语表达实例。每个习语表达均配有字面和比喻意义的上下文句子，以及对应的视觉场景描述，确保了数据的高质量和多样性。数据集的设计旨在挑战模型在多模态和跨语言环境中对习语表达的理解能力。

使用方法

AdMIRe数据集的使用方法主要分为两个子任务：静态图像排序和图像序列预测。在静态图像排序任务中，模型需要根据给定的上下文句子，对一组图像进行排序，以反映习语表达的字面或比喻意义。在图像序列预测任务中，模型需要根据前两幅图像预测序列中的下一幅图像，并判断习语表达的字面或比喻意义。数据集还提供了仅使用文本描述的任务设置，以降低计算复杂度。通过这两个任务，研究者可以评估和提升模型在多模态环境中对习语表达的理解能力。

背景与挑战

背景概述

AdMIRe数据集由英国谢菲尔德大学、埃克塞特大学和巴西南里奥格兰德联邦大学的研究团队于2025年创建，旨在推动多模态习语表征的研究。该数据集聚焦于习语表达的多模态理解，特别是在图像和文本结合的语境下。习语因其含义无法直接从字面推断，成为自然语言处理（NLP）中的一大挑战。AdMIRe数据集通过引入静态图像和图像序列任务，评估模型在多语言环境下对习语表达的理解能力。该数据集包含英语和巴西葡萄牙语的习语表达，涵盖了名词性复合词的字面和比喻意义，推动了NLP领域对习语理解的深入研究。

当前挑战

AdMIRe数据集面临的主要挑战包括：1) 习语的多义性使得模型难以准确区分字面和比喻意义，尤其是在多模态语境下；2) 数据集的构建过程中，如何确保图像与习语的字面和比喻意义高度对齐，同时避免文化偏见和模型生成图像的局限性；3) 习语表达的多样性和语言特异性增加了数据标注和模型训练的复杂性，尤其是在多语言环境下。此外，尽管大型语言模型（LLMs）在一般任务上表现出色，但在处理习语时仍存在显著的局限性，尤其是在跨语言和跨文化的习语理解上。

常用场景

经典使用场景

AdMIRe 数据集主要用于评估和提升多模态环境下模型对习语表达的理解能力。该数据集通过静态图像和图像序列两种任务形式，挑战模型在多种语言中对习语的字面和比喻意义的区分能力。经典使用场景包括模型在给定上下文句子后，对图像进行排序以反映习语的正确含义，或预测图像序列中的下一张图像。这些任务不仅测试了模型的多模态推理能力，还推动了习语理解领域的研究进展。

实际应用

AdMIRe 数据集的实际应用场景广泛，尤其在需要高精度语言理解的领域。例如，在机器翻译中，习语的错误翻译可能导致严重的语义偏差，AdMIRe 数据集可以帮助改进翻译系统对习语的处理能力。此外，该数据集还可用于情感分析和推理任务，提升模型在社交媒体、客户服务等场景中的表现。通过结合视觉和文本信息，AdMIRe 数据集为多模态语言理解的实际应用提供了有力支持。

衍生相关工作

AdMIRe 数据集衍生了许多相关研究，尤其是在多模态习语理解和语言模型优化方面。基于该数据集的研究工作探索了如何通过混合专家模型（Mixture of Experts）和预训练语言模型（如 GPT-4 和 CLIP）来提升习语理解的准确性。此外，一些研究还提出了数据增强和提示工程（Prompt Engineering）等技术，以进一步优化模型在习语任务中的表现。这些工作不仅扩展了 AdMIRe 数据集的应用范围，还为多模态语言理解领域提供了新的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集