five

MetFuse

收藏
arXiv2026-04-15 更新2026-04-16 收录
下载链接:
https://github.com/cincynlp/MetFuse
下载链接
链接失效反馈
官方服务:
资源简介:
MetFuse是由辛辛那提大学团队构建的首个专注于转喻与隐喻融合的比喻语言数据集,包含1000组经人工验证的四元组句子(共4000句),每组由原始直义句及其转喻变体、隐喻变体和混合变体构成。该数据集基于维基百科语料筛选,通过大语言模型生成候选句式并结合BERT优化得到,其核心价值在于揭示了隐喻存在时转喻名词的显性化现象。该资源可显著提升现有比喻分类模型的性能,特别适用于创意写作生成、自然语言理解及认知语言学交叉研究领域。

MetFuse is the first figurative language dataset focused on the fusion of metonymy and metaphor, constructed by a team from the University of Cincinnati. It contains 1,000 manually validated sentence quadruples (totaling 4,000 sentences), with each quadruple consisting of a literal original sentence, its metonymic variant, metaphorical variant, and hybrid variant. This dataset is curated from Wikipedia corpora, with candidate sentence variants generated by large language models (LLMs) and optimized using BERT. Its core contribution lies in uncovering the phenomenon of the explicitation of metonymic nouns when metaphors are present. This resource can significantly improve the performance of existing figurative classification models, and is particularly applicable to creative writing generation, natural language understanding (NLU), and interdisciplinary research in cognitive linguistics.
提供机构:
辛辛那提大学
创建时间:
2026-04-15
原始信息汇总

MetFuse数据集概述

基本信息

  • 数据集名称:MetFuse
  • 关联论文:ACL 2026论文《MetFuse: Figurative Fusion Using Metonymy and Metaphor》
  • 数据集用途:用于比喻融合(Figurative Fusion)研究,涉及转喻(Metonymy)和隐喻(Metaphor)
搜集汇总
数据集介绍
main_image_url
构建方式
在计算语言学领域,系统性地构建转喻与隐喻融合的语料资源是一项具有挑战性的任务。MetFuse数据集的构建依托于一个创新的“字面到比喻”转换框架。该框架以从维基百科中提取的、符合特定句法结构(主语为指人名词)的字面句子为输入,通过一个精心设计的三阶段流程,分别生成其转喻变体、隐喻变体以及融合二者的混合变体。具体而言,转喻生成利用大语言模型(LLM)基于邻近关系生成候选替换名词,并通过掩码语言模型(如BERT)选择最符合上下文的候选词;隐喻生成则聚焦于动词的跨域映射,通过LLM生成夸张的候选动词,并依据句子情感基调进行筛选;混合句则通过将转喻名词短语替换到隐喻句中自动合成。最终,通过人工验证从生成的1500个样本中筛选出1000个高质量的四元组,构成了包含4000个句子的数据集。
使用方法
MetFuse数据集为自然语言处理中比喻语言的研究与应用开辟了多元路径。在模型训练与评估方面,该数据集可作为高质量的数据增强资源,用于提升现有转喻与隐喻分类模型的性能。实验证明,在八个现有基准测试中,使用MetFuse的转喻、隐喻或混合例句对训练数据进行增强,能一致性地提升分类准确率,其中混合例句对转喻识别任务的增益尤为显著。在语言认知与计算分析层面,研究者可利用该数据集系统地分析转喻与隐喻的共现模式、相互影响及其对句子语义和可解释性的作用。此外,数据集也为大语言模型在创造性文本生成、如叙事生成等任务中,学习生成更具层次感和表现力的比喻语言提供了宝贵的训练和评估基准。
背景与挑战
背景概述
在计算语言学和自然语言处理领域,转喻和隐喻作为两种核心的修辞现象,长期以来被孤立研究,缺乏对其在自然语言中共现与交互的系统性探索。为填补这一研究空白,辛辛那提大学的研究人员Saptarshi Ghosh与Tianyu Jiang于2026年提出了MetFuse数据集。该数据集首次专注于转喻与隐喻的修辞融合现象,通过构建一个从字面句到三种修辞变体(转喻、隐喻及混合型)的生成框架,创建了包含1000组经人工验证、语义对齐的四元组句子,总计4000句。MetFuse的建立不仅推动了修辞语言理解的计算建模,也为探究两种修辞机制的相互作用提供了首个专用资源,对提升大语言模型在创造性文本生成与叙事理解等任务中的表现具有重要影响。
当前挑战
MetFuse数据集致力于解决的核心领域问题是转喻与隐喻的联合识别与生成,这一任务面临双重挑战。在领域问题层面,转喻与隐喻在认知机制上存在本质差异:转喻依赖于单一概念域内的指代转移,而隐喻涉及跨域映射,这种结构性差异使得统一建模极为复杂。此外,两种修辞在句子中的共现会相互影响,例如隐喻的存在可能使得转喻名词的解读更为显性,这种动态交互为准确识别与解析带来了额外难度。在构建过程层面,主要挑战在于可控生成:转喻的生成受限于严格的域内映射与指代一致性要求,候选替换空间狭窄;而隐喻生成虽更自由,但需在保持创造性的同时不偏离原句语义。确保生成的混合句同时满足两种修辞约束且保持语义忠实性,是数据集构建中的关键难题。
常用场景
经典使用场景
在计算语言学和认知语言学领域,MetFuse数据集为研究转喻与隐喻的交互作用提供了首个系统性的实证资源。该数据集通过从字面句子生成转喻、隐喻及混合变体的框架,构建了1000个意义对齐的四元组,共计4000个句子。其经典使用场景集中于训练数据增强,用以提升现有转喻与隐喻分类模型的性能。实验表明,在八个基准测试中,使用MetFuse进行数据增强能一致性地改善分类准确率,其中混合例句在转喻任务上带来了最显著的增益。
解决学术问题
MetFuse数据集主要解决了转喻与隐喻在自然语言处理中长期被孤立研究的学术困境。传统工作多将二者视为独立现象,忽视了它们在真实语境中的共现与融合。该数据集通过提供结构化的混合例句,使得研究者能够首次系统地探究隐喻动词如何影响转喻名词的显性程度。其实验发现揭示了隐喻的跨域映射能迫使转喻得到更明确的解读,这深化了我们对比喻语言认知机制的理解,并为构建更精细的比喻语言计算模型奠定了数据基础。
实际应用
在实际应用层面,MetFuse数据集能够显著提升大型语言模型对复杂比喻语言的生成与理解能力。在创意写作、叙事生成和内容创作等领域,模型通过学习和模仿数据集中丰富的比喻融合模式,可以生成更具层次感和表现力的文本。此外,该数据集对于机器翻译、情感分析和文本风格转换等任务也具价值,它能帮助系统更好地处理包含多重比喻意义的语言表达,从而提高自然语言处理系统在真实世界应用中的鲁棒性和自然度。
数据集最近研究
最新研究方向
在计算语言学领域,MetFuse数据集的推出标志着对转喻与隐喻交互研究的前沿突破。该数据集通过构建包含字面句、转喻句、隐喻句及混合句的四元组,首次系统化地探索了两种修辞格在自然语言中的融合现象。当前研究聚焦于利用此类数据增强训练,以提升大型语言模型在转喻与隐喻分类任务上的性能,并深入分析隐喻动词如何强化转喻名词的显性识别。这一方向不仅推动了修辞理解的计算建模,也为创意文本生成与叙事计算等应用提供了关键资源。
相关研究论文
  • 1
    MetFuse: Figurative Fusion between Metonymy and Metaphor辛辛那提大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作