Metaphoric Analogies Dataset

Name: Metaphoric Analogies Dataset
Creator: 卡迪夫大学计算机科学与信息学院
Published: 2024-12-20 04:11:04
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

https://metaphors.iath.virginia.edu/metaphors

下载链接

链接失效反馈

官方服务：

资源简介：

Metaphoric Analogies Dataset是由卡迪夫大学计算机科学与信息学院的研究团队构建的一个新颖数据集，专门用于从文学文本中提取隐喻性类比。该数据集包含204个实例，每个实例都标注了源域和目标域的概念对。数据集的内容来源于现有的隐喻项目库、书籍和在线资源，经过人工筛选和标注，确保每个实例都符合4项隐喻类比的结构。该数据集的创建旨在推动隐喻和类比研究，特别是在自然语言处理领域，帮助模型识别和生成隐喻中的隐含概念，从而提升诸如问答、自然语言推理和机器翻译等下游任务的性能。

Metaphoric Analogies Dataset is a novel dataset constructed by the research team from the School of Computer Science and Informatics at Cardiff University, specifically designed for extracting metaphorical analogies from literary texts. This dataset contains 204 instances, each annotated with source-domain and target-domain concept pairs. The content of the dataset is sourced from existing metaphor project repositories, books and online resources, and has undergone manual screening and annotation to ensure that each instance complies with the four structural criteria of metaphorical analogies. The creation of this dataset aims to advance research on metaphors and analogies, especially in the field of natural language processing, by helping models identify and generate the implicit concepts within metaphors, thereby improving the performance of downstream tasks such as question answering, natural language inference and machine translation.

提供机构：

卡迪夫大学计算机科学与信息学院

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

该数据集的构建过程依赖于领域专家的手动选择和标注，从现有的文学文本集合中挑选出包含四项隐喻类比的短文本。这些文本来源于‘Metaphor of Mind’项目、两本收录著名隐喻的书籍以及其他在线资源。每个实例都经过专家标注，标注内容包括隐喻的源域和目标域概念对，并由另一名专家进行复核，以确保标注的准确性和一致性。

特点

该数据集的特点在于其专注于文学文本中的隐喻类比，特别是四项隐喻类比，这些类比通常涉及两个概念对之间的映射关系。数据集中的实例包含不同数量的隐含概念，部分概念在文本中并未明确提及，需要通过推理来补充。此外，数据集的实例长度和复杂度各异，涵盖了从句子到段落的多种文本形式。

使用方法

该数据集可用于评估和训练大型语言模型在隐喻类比提取任务中的表现。使用时，模型需要从给定的短文本中提取出四个概念，并确定它们在隐喻类比中的角色（源域或目标域）。对于文本中未明确提及的隐含概念，模型需要生成合理的替代概念。通过这种方式，数据集可以用于测试模型在隐喻理解、类比推理等任务中的能力，并为相关领域的研究提供支持。

背景与挑战

背景概述

Metaphoric Analogies Dataset（隐喻类比数据集）由Cardiff NLP团队的研究人员于近期构建，旨在解决从文学文本中自动提取隐喻类比的核心问题。该数据集的创建源于对大型语言模型（LLMs）在处理隐喻类比任务中表现的研究，特别是其在识别隐喻映射和生成隐含概念方面的能力。通过引入这一数据集，研究者们希望推动隐喻类比在自然语言处理（NLP）领域的应用，尤其是在机器翻译、问答系统和自然语言推理等下游任务中的潜力。该数据集的发布不仅为隐喻类比研究提供了新的基准，还为跨学科研究（如认知科学、神经科学等）提供了丰富的资源。

当前挑战

构建Metaphoric Analogies Dataset面临的主要挑战包括：首先，隐喻类比通常涉及隐含概念，这些概念在文本中并未明确提及，因此需要模型具备高层次的推理能力来推断这些隐含元素。其次，隐喻类比的构建过程复杂，涉及从文学文本中筛选出符合特定类比结构的隐喻，并进行手动标注，这一过程耗时且需要领域专家的参与。此外，隐喻类比的处理还面临语义远距离映射的难题，即源域和目标域之间的概念往往具有较大的语义差异，这增加了模型识别和映射的难度。最后，数据集的规模相对较小，仅为204个实例，这限制了其在模型训练和评估中的广泛应用。

常用场景

经典使用场景

Metaphoric Analogies Dataset 主要用于从文学文本中自动提取隐喻性类比。该数据集通过标注源域和目标域的概念对，帮助模型识别和生成隐喻中的隐含元素。经典使用场景包括：从包含隐喻的短文本中提取出四个关键概念（T1、T2、S1、S2），并生成隐含概念，以构建完整的隐喻类比结构。

衍生相关工作

基于该数据集，研究者们开发了多种隐喻和类比处理模型，推动了隐喻理解任务的发展。例如，Tong et al. (2024) 提出了新的隐喻理解基准，而 Webb et al. (2023) 则展示了大型语言模型在类比推理中的潜力。此外，该数据集还激发了对隐喻生成和解释的研究，如 Veale 和 Li (2012) 的隐喻生成系统，进一步扩展了隐喻在自然语言处理中的应用范围。

数据集最近研究